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Streszczenie 


Praca przedstawia bibliotekę programistyczną umożliwiającą symulowanie prostych istot 
zwanych biotami. Bioty wyposażone są w zestaw elementarnych sensorów, efektorów, a 
także sieć neuronową kontrolującą ich zachowanie. Zadaniem biotów jest odkrycie strategii 
prowadzącej do chwilowego „zadowolenia”, jakie daje wypełnienie prostego zadania, np. 
znalezienie pożywienia. 

Poszczególne rozdziały opisują tło projektu. W pierwszym rozdziale przedstawiona 
jest dziedzina sztucznego życia, jej historia i projekty stanowiące inspirację dla biblioteki 
BrainLab. Drugi rozdział przedstawia metodykę uczenia ze wzmocnieniem, zwanego też 
uczeniem z krytykiem, jako technika uczenia maszynowego pokrewna wobec tego, co 
prezentują bioty. Trzeci rozdział traktuje o maszynach Boltzmanna, na których bazują bioty. 
Rozdział czwarty to opis samego projektu BrainLab, a pracę kończy rozważanie na temat 


możliwości rozwoju projektu. 


Słowa kluczowe 


sztuczne życie, maszyny Boltzmanna, uczenie z krytykiem, a-life, bioty, biot 
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Wprowadzenie 


Ta praca opisuje architekturę neuronową i bibliotekę programistyczną, stworzoną do sy- 
mulacji autonomicznych biologicznie inspirowanych agentów - biotów w zmieniającym się 
środowisku. 

Zarówno model neuronowy jak i oprogramowanie symulacyjne opierają się na pewnych 
restrykcyjnych regułach. 

Po pierwsze - wszelkie decyzje były podejmowane na korzyść możliwości bardziej po- 
prawnej biologicznie. Między innymi dlatego zdecydowałem się na maszyny Boltzmanna, 
które, choć nadal dalekie od neuronów biologicznych, mają pewne cechy obserwowane w 
układach nerwowych istot żywych. 

Po drugie - wielką wagę przywiązuję do tego, by bioty były indywidualnymi bytami, 
uczącymi się na podstawie własnych doświadczeń, a nie obiektami sterowanymi przez 
jedną, centralną jednostkę. 

Po trzecie - bioty powinny „wiedzieć” możliwie jak najmniej o ich położeniu na planszy, 
sposobie osiągnięcia celu, czy mierze odległości od celu lub stopnia wykonania zadania. 
To jest kluczowe założenie projektu, które definiuje jego innowacyjność. 

Czwarta reguła jest po części powiązana z pozostałymi regułami - zarówno bioty 
z osobna, jak model środowiska zaprojektowany jest tak, by umożliwić w przyszłości 
implementację sprzętową. Celem symulacji jest umieszczenie architektury podejmującej 
decyzję w środowisku możliwie jak najbardziej podobnym do takiego, w jakim mógłby 


zostać uruchomiony mobilny robot wyposażony w proste zmysły. 
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ROZDZIAŁ 1 


Sztuczne życie 


Dziedzina sztucznego życia (artificial life, a-life) to interdyscyplinarna dziedzina wiedzy, łą- 
cząca w sobie zagadnienia biologii, matematyki, psychologii, fizyki i wielu innych. Sztuczne 
życie polega na konstruowaniu maszyn i oprogramowania posiadającego pewne wybrane 
cechy istot żywych 

Podczas gdy w dziedzinie AI - sztucznej inteligencji - zaczyna się od problemu (gra 
w szachy, rozpoznawanie języka naturalnego) i buduje system, który problem rozwiązuje, 
wykazując zaawansowane wzorce zachowania (podejście top-bottom), w dziedzinie sztucz- 
nego życia zaczyna się od symulacji i obserwuje się zachowania i problemy, jakie obiekt 
badań jest w stanie rozwiązać (podejście bottom-up). Taka organiczna metoda pozwoliła 
na konstrukcję (ewolucję) układów zdolnych do niezwykłych wyczynów w stosunku do 
prostoty budowy ich poszczególnych części. Można porównać to podejście do „odwrotnej 
inżynierii” (reverse engineering) - próby odgadnięcia zasad działania urządzenia, w tym 


przypadku umysłu istoty żywej, przez konstrukcję wzorowanego na nim modelu. 


1.1. Samoreplikacja, automaty komórkowe i Życie Conwaya 


Za pioniera dziedziny uważa się Johna von Neumanna, węgierskiego pochodzenia mate- 
matyka i pioniera teorii obliczeń. Von Neumann, student Turinga i Churcha, zadał pytanie: 
czy wystarczająco skomplikowana maszyna byłaby w stanie na podstawie własnego sche- 
matu skonstruować swoją kopię, lub nawet maszynę lepszą od siebie? W tym eksperymen- 
cie myślowym, von Neumann przekonał się, że taka maszyna, którą nazywał Uniwersalnym 
Konstruktorem (ang. Universal Constructor, inne nazwy to Clanking replicator i Auxon), nie 
łamie żadnych praw fizyki, a obecnie dysponujemy częścią technologii koniecznych do 
budowy Konstruktora. W eksperymencie myślowym von Neumanna, Uniwersalny Kon- 
struktor byłby w stanie zbudować swoją kopię, która byłaby gotowa do budowy kolejnej 
kopii - i tak dalej. Taki samoreplikujący się zestaw Uniwersalnych Konstruktorów stale 
zwiększałby swoją moc produkcyjną, wykorzystując w tym celu odpowiednie surowce i 
energię, ale bez udziału człowieka - operatora. 

Uniwersalny Konstruktor von Neumanna składał się z trzech elementów: Konstruktora 
A, Reproduktora B i Kontrolera C. Konstruktor to maszyna, która jest w stanie zbudować 
dowolne urządzenie, o ile posiada instrukcję F i odpowiednie zasoby. Reproduktor potrafi 


skopiować intrukcję, a Kontroler działa według schematu: 
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1. uruchamia Konstruktora, który wykonuje instrukcję F, zawierającą opis budowy 
zespołu A + B+C 


2. uruchamia Reproduktora, by wykonał kopię instrukcji - F” 
3. wyposaża nowo zbudowany zespół A’ + B’ + C” w kopię instrukcji 
4. oddziela zespół A’ + B' + C" wraz z instrukcją F’ od A+B+C+F. 


(za [20]) 

Choć model w tej postaci nie zawiera możliwości samodoskonalenia (jak też nie spełnia 
innych zadań poza samoreplikacją), nic nie stoi na przeszkodzie, by uzupełnić kolonię 
Konstruktorów o algorytm genetyczny/!| który np. zapewnia przeżycie zespołów, które 
pracują szybciej i wykorzystują mniej zasobów. 

Problematyka samoreplikujących się automatów była podejmowana przez ekspertów z 
NASA w raporcie z 1980 roku[11], redagowanym przez Roberta Freitasa. Raport dotyczył 
zautomatyzowanych misji kosmicznych, w których minimalny zestaw robotów wysłanych 
z Ziemi konstruowałby z zasobów naturalnych dostępnych na Księżycu czy Marsie kolejne 
roboty i elementy infrastruktury, którą w dalszej przyszłości mógłby zasiedlić człowiek. 
Projekt zautomatyzowanej sondy obejmował szczegóły działania takiego samobudującego 
się zespołu, od zasilania (zestaw baterii słonecznych), poprzez wytop metali, aż po metodę 
wytwarzania elementów elektronicznych. Badacze uznali jednak, że te ostatnie musiałyby 
być sprowadzane z Ziemi (na kształt witamin dla mechanicznego organizmu). 

Najprawdopodobniej właśnie rozważania o samoreplikacji doprowadziły von Neuman- 
na i Ulama do stworzenia teorii automatów komórkowych. Na automat komórkowy skła- 
dają się: skończony zbiór S stanów każdej pojedynczej komórki nieskończonej, skończenie- 
wymiarowa (najczęściej jedno- lub dwuwymiarowa) siatka SY, funkcja sąsiedztwa, która 
każdej komórce przypisuje zbiór komórek nazywanych jej sąsiadami oraz funkcja zmiany 
stanu, która wyznacza stan komórki w następnym kroku na podstawie stanu obecnego 
komórki i stanów komórek należących do jej sąsiedztwa. Aktualizacja stanów komórek 
może następować synchronicznie lub asynchronicznie. John von Neumann krótko przed 
śmiercią zdołał opisać 27-stanowy automat komórkowy zdolny do samoreplikacji. 

Automaty komórkowe to jeden z modeli obliczeń. Jako wygodny z matematycznego 
punktu widzenia model, używane są do symulacji rozprzestrzeniania się epidemii, badania 
właściwości fizycznych materiałów, przewidywania usterek w układach scalonych i w 
wielu innych dziedzinach, ale prawdziwa ich potęga objawia się nie w symulacji świata 
rzeczywistego, a w momencie, gdy potraktujemy je jako świat sam w sobie, w którym 
proste zasady rządzące zachowaniem jednostki prowadzą do niezwykle skomplikowanych 


zachowań. 


1O algorytmach genetycznych - później 
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Najbardziej znanym przykładem automatu komórkowego jest gra Life (Życie), której 
stworzenie przypisuje się Johnowi Hortonowi Conwayowi zadebiutowała w roku 1970 w 
kolumnie gier matematycznych w Scientific American. Jest to gra bez graczy, w której stan 
początkowy jednoznacznie określa całą ewolucję układu. Układem jest nieskończona siatka 
dwuwymiarowa (Z°), której każde pole jest automatem w jednym z dwóch stanów - żywy 


lub martwy. Gra oparta jest na dwóch prostych regułach: 
e martwe pole (komórka), które ma dokładnie trzech żywych sąsiadów, ożywa 


e żywa komórka pozostaje żywa pod warunkiem, że ma dwóch lub trzech żywych 


sąsiadów, w przeciwnym wypadku ginie (z samotności lub przeludnienia). 


Sąsiedztwo w grze oznacza styczność brzegiem lub kątem: każda komórka ma ośmiu 
sąsiadów (sąsiedztwo Moore'a). Aktualizacje dokonywane są równolegle: stan komórki w 
kroku n+1 zależy od stanu sąsiedztwa w kroku n. Zakłada się, że konfiguracja początkowa 


jest skończona. 


AE oe 


Rysunek 1.1. Konfiguracja poczatkowa i dwa kroki gry Life 


Martin Gardner, autor oryginalnego artykułu w Scientific American, przytoczył zale- 
caną przez Conwaya metodę grania za pomocą planszy i kamieni do gry Go, która za- 
pewniała poprawność następnego kroku. Zaczynało się od na konfiguracji początkowej 
ułożonej z czarnych kamieni. Na pola, które miały umrzeć, należało położyć dodatkowy 
czarny kamień, a na te, na których miała się narodzić komórka - biały. Następnie należało 
upewnić się, że we wszystkich polach zostały uwzględnione reguły i przejść do następnego 
kroku, usuwając podwójne czarne kamienie i zastępując białe czarnymi. W czasach, gdy 
symulator Life uruchamia się na telefonie komórkowym, należy z szacunkiem wspomnieć 
zespół Conwaya żmudnie analizujący kilkudziesięciokomórkowe konfiguracje. 

Gardner skategoryzował najprostsze konfiguracje początkowe, pokazując układy za- 
mierające, zapętlające się i stabilne (lub stabilizujące się). Pojedyncza żywa komórka w 
oczywisty sposób zamiera w jednym kroku, podobnie dowolna konfiguracja dwóch ko- 
mórek. Przykładem wzorca stabilnego jest kwadratowy blok czterech żywych komórek, 
a wzorca oscylującego - trzy żywe komórki ułożone w pionową lub poziomą linię (oscy- 


luje między pionem a poziomem) lub dwa czterokomórkowe bloki stykające się rogami. 
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Układy oscylujące można podzielić na nieruchome, czyli takie, których kształt się zmienia, 
ale pozostają w miejscu i ruchome, zwane też statkami, czyli oscylatory, które wracają do 
wcześniejszego kształtu, ale z przesunięciem. Prędkość statków na planszy mierzy się w 


ułamkach c, czyli nieprzekraczalnej prędkości jednego pola na krok symulacji. 


A 


Rysunek 1.2. Proste wzorce zamierajace. 


235 5 


Rysunek 1.3. Proste wzorce stabilne. 


= | u = 


Rysunek 1.4. Proste oscylatory. 


W grze Life, jak i w podobnych automatach komórkowych, ogrodami Eden nazywa sie 
konfiguracje pierwotne, które nie mogą powstać z żadnej innej konfiguracji. 

Oryginalny zamysł Conwaya był taki, aby żadna konfiguracja pierwotna w oczywi- 
sty sposób (w sensie prostoty dowodu) nie generowała populacji w nieskończoność, ale 
przy istnieniu nawet prostych konfiguracji początkowych, które rozwijają się przez dłuższy 
czas, zanim popadną w oscylację lub zaginq?| Rzeczywiście, eksperyment z komputerową 


wersją gry pokazuje, że losowo stworzona konfiguracja zwykle przez jakiś czas eksploduje 


*Proste - do 10 komórek - konfiguracje początkowe, które generują bardzo duże populacje - od 100 komórek, 


nazywane były przez Conwaya Metuzalemami. 
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nowymi komórkami, po czym jej rozrost spowalnia i pozostają wysepki oscylujących konfi- 
guracji. Conway ogłosił nagrodę 50 dolarów dla pierwszego, kto zaprojektuje konfigurację 
początkową, o której udowodni, że generuje ona nielimitowaną populację. Nagrodę odebrał 
Bill Gosper za projekt „strzelby” złożonej z dwóch stabilnych bloków i dwóch ruchomych 
oscylatorów, które „zderzając się” uwalniały bardzo prosty obiekt ruchomy zwany szy- 
bowcem. Powstało wiele podobnych konfiguracji, które podzielono na strzelby (oscylatory 
emitujące statki) i parostatki (statki emitujące spaliny). 

Do dziś trwają konkursy na projekt oscylatora o możliwie największym okresie. Mając 
kilka oscylatorów (nie statków) o względnie pierwszych okresach, można je zsynchronizo- 
wać tak, żeby stworzyć oscylator o okresie będącym iloczynem ich okresów] Szczególnym 
osiągnięciem jest więc oscylator o okresie będącym liczbą pierwszą lub iloczynem niewie- 
lu liczb pierwszych. Uczestnicy takich konkursów lubują się w tworzeniu konfiguracji o 
artystycznych kształtach, przypominających przedmioty codziennego użytku. 

Konkurs ogłoszony przez Conwaya pokazał, że w systemie, w którym identycznymi 
elementami rządzą proste reguły, z elementarnych części można projektować maszyny 
spełniające określone zadanie. W pełni deterministyczna gra bez zawodników, w której 
o wszystkim decyduje pierwotna konfiguracja, okazała się wdzięcznym tworzywem, w 
którym sama struktura obiektu decyduje o jego działaniu, a którego granice możliwości 
niełatwo było nawet oszacować. Przynajmniej do kwietnia roku 2000, kiedy Paul Rendell 
pokazał, że w modelu obliczeń, jakim jest automat komórkowy z regułami Life można 
zanurzyć maszynę Turinga. Konfiguracja Rendella jest złożeniem kilkudziesięciu części - 
bramek, elementów pamięci, implementacji stosu, taśmy i programu maszyny. Każda z 
nich zbudowana jest z prostych, sklasyfikowanych elementów - oscylatorów, elementów 
stabilnych i statków. Wszystkie elementy pozostają w interakcji. Realizacja programu za- 
stępującego jedynkę na taśmie dwiema jedynkami, na danych wejściowych złożonych z 
dwóch jedynek kończy działanie po szesnastu krokach symulacji, zostawiając na taśmie 


cztery jedynki. Na komputerze używanym przez Paula Rendella trwa to ponad godzinę. 


1.2. Modele ewolucyjne 


Automaty komórkowe, jak konfiguracje gry Life, choć podlegają rozmnażaniu i, jako całość, 
potrafią w trakcie rozwoju komplikować własną strukturę, nie dają możliwości arbitralne- 
go określenia, co więcej - ustalenia miary, według której można mierzyć jakość kolejnych 
pokoleń. Konfiguracja gry Life równoważna maszynie Turinga jest prawdopodobnie ogro- 


dem Eden, a nawet jeśli nie - nie sposób znaleźć konfigurację początkową, która mogłaby 


SW konkursach bierze się pod uwagę konfiguracje spójne, czyli takie, w których nie można wyróżnić linii 
zawsze martwych komórek, po obu stronach której byłyby komórki żywe. 


10 
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prowadzić do tak złożonej struktury. W grze Life i jej modyfikacjach, do stworzenia ma- 
szyny Turinga lub Konstruktora potrzebny jest inny Konstruktor - świadomy i inteligentny 
projektant. Filozoficzne implikacje tego spostrzeżenia byłyby ogromne, gdyby nie istniały 
algorytmy genetyczne, pozwalające ustalić kierunek mutacji (lub nawet nie) i iść na przysło- 


wiową herbatę. 


Na algorytm genetyczny składają się trzy elementy - selekcja, krosowanie i mutacja ((16], 
[10]. Podmiotem „obróbki ewolucyjnej” jest skończony zbiór genotypów, najczęściej re- 
prezentowanych jako ciągi znaków. Dla ustalenia uwagi, pozwolę sobie ograniczyć się 
do przykładu, w którym genotypami są skończone ciągi zer i jedynek ustalonej długości 
(01000010001001011110101001). Niech G będzie zbiorem genotypów. 


Selekcja to metoda oceniania genotypów. Biologicznym odpowiednikiem selekcji jest 
selekcja naturalna, czyli proces, który sprawia, że słabsze jednostki mają mniejsze szanse 
przekazać swoje geny. Najczęściej wymaga funkcji jakości lub przystosowania (fitness) 
@: G — R, która określa, które genotypy (a właściwie byty opisane przez te genotypy) 
są lepiej przystosowane (jeśli gi € G opisuje lepszą jednostkę niż go € G, to 9(g1) > 
ó(g2)). Mając funkcję przystosowania mamy kilka możliwości - możemy wybrać określoną 
ilość genotypów o najwyższych wartościach ¢, wybrać losowo (równoważnie - losowo 
odrzucić) pewną ilość genotypów z prawdopodobieństwem zależnym od 6 (koło fortuny 
z nierównymi polami) lub zignorować funkcję przystosowania i odrzucić losowo wybrane 


jednostki. 


01000010001001011110101001 
10100100101111010101011101 
00010101110101110101011011 


10101011111101010111000001 


Rysunek 1.5. Selekcja 


W świecie biologicznym funkcja przystosowania nie istnieje, choć można mówić o zmie- 
niającym się w czasie rozkładzie prawdopodobieństwa przetrwania. To, czy dana jednostka 
doczeka się potomstwa, zależne jest od jej szansy przeżycia, stanu zdrowia i ogólnej sy- 
tuacji w otoczeniu: w epoce lodowcowej (lub podczas zimy, dla krócej żyjących stworzeń) 
większą szansę przeżycia mają jednostki lepiej utrzymujące ciepło i magazynujące ener- 
gię. W czasie powodzi przetrwają te, którym nie przeszkadza woda, a w czasie suszy te, 


które szybko wodę znajdą lub stracą niewiele energii przed następnym deszczem - mikro- 
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ewolucyjne zmiany występują z pokolenia na pokolenie i są obserwowanef| Sam genotyp 
nie zawiera informacji, czy zostanie przekazany. W tym świetle na szczególną uwagę za- 
sługuje metoda koła fortuny, jako najbardziej odpowiadająca temu, co wiemy o świecie 
biologicznym, a zarazem zapewniająca różnorodność puli genów. 

Gdy wybraliśmy jednostki przeznaczone do przetrwania i odrzuciliśmy te, które nie 
miały szczęścia, trzeba wybrać jednostki (pary jednostek), które przekażą swoje geny. 
Tu różnorodność metod jest jeszcze większa - w niektórych modelach geny przekazują 
wszystkie jednostki, a kolejne pokolenie zastępuje poprzednie (lub jest do niego dodawane 
do kolejnej selekcji), w niektórych przekazanie genów zależy od położenia w symulowanej 
przestrzeni i bezpośredniego sąsiedztwa dwóch istot (jak w życiu), w niektórych przekazują 
je tylko jednostki najlepiej przystosowane. Metodę wyboru genotypów do krosowania 
warto dopasować do wybranego schematu selekcji - jeśli wcześniej zignorowaliśmy funkcję 
przystosowania, warto wykorzystać ją teraz, bo to ostatnia możliwość ukierunkowania 


procesu ewolucji i odróżnienia go od błądzenia losowego. 


01000010001001011110101001 
01000010001001100111010111 


01000010001001100111010111 


Rysunek 1.6. Krosowanie 


Krosowanie to proces w którym z dwóch (lub, bardzo rzadko, więcej) genotypów two- 
rzony jest zbiór genotypów potomnych, najczęściej jeden lub dwa. W przypadku ciągów, 
których syntaktyka nie gra roli (każdy ciąg określonej długości nad danym alfabetem jest 
poprawnym genotypem), stosuje się krosowanie podobne do tego, które zachodzi przy 
łączeniu DNA dwóch osobników w genotyp nowego osobnika - łańcuchy są przecinane 
w ustalonym miejscu i w skład nowego łańcucha wchodzi pierwsza część jednego i dru- 
ga część drugiego. Jeśli chcemy zachować poprawność składniową genotypów (w naturze 
najprawdopodobniej niepoprawne są po prostu odrzucane na pewnym etapie), trzeba za- 
stosować inną metodę. W dość prostym przypadku, gdy genotypy można podzielić na 
atomowe podciągi - geny, z których każdy odpowiada jednej cesze, pilnuje się, aby miejsce 
dzielenia nastąpiło między podciągami, a nie pośrodku cechy. W przypadku drzewiastej 


interpretacji genotypu, podziału dokonuje się w samej interpretacji, według rozgałęzień. 


*Mikroewolucja nie jest kwestionowana przez większość kreacjonistów, odrzucających ewolucję międzyga- 


tunkową 
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Gdy cechy kodowane sa liczbami rzeczywistymi, stosuje się np. średnią arytmetyczną do 
całości lub wybranych części genotypów. 

Najważniejszym jednak wymogiem wobec krosowania jest to, aby potomek miał szansę 
zachować dobre cechy rodziców. Aby podać dość wyraźny przykład - jeśli o przystosowa- 
niu w znacznym stopniu decyduje posiadanie w genotypie tej samej wartości na początku, 
co na końcu, a genotyp jest nad dość dużym alfabetem, krosowanie przez podział, z dwóch 
dobrze przystosowanych jednostek w większości przypadków wytworzy jednostkę zupeł- 
nie nieprzystosowaną. Przykład nie jest aż tak nieżyciowy jak by się mogło wydawać. Gdy 
mamy dany genotyp składający się z suboptymalnych rozwiązań problemu komiwojaże- 
ra, kodowanych kolejnością odwiedzanych miast czy wierzchołków grafu, co powstanie 
ze skrzyżowania dwóch dróg, z których jedna jest odwróceniem kolejności drugiej? Za 
problem można tu winić zarówno nieoptymalne kodowanie, jak i destruktywną metodę 
krosowania. Projektując algorytm genetyczny należy dopasować metodę krosowania do 
kodowania cech w genotypie. 

Mutacja odpowiada za spontaniczne generowanie cech nie występujących u przodków. 
W praktyce, jak w życiu, prawdopodobieństwo mutacji powinno być dość małe. najwyżej 
jeden gen, niewielka zmiana, w kilku genotypach na pokolenie. W niepełnych algorytmach 
genetycznych czasem pomija się krosowanie i opiera algorytm wyłącznie na selekcji i mu- 
tacji. W sytuacjach, gdy krosowanie z zachowaniem poprawności jest złożone obliczeniowo 


lub niemożliwe, jest to jedyny sposób. 


01000010001001011110101001 


01000010001101111100101001 


Rysunek 1.7. Mutacja 


Ogólny schemat postępowania w algorytmie genetycznym wygląda więc następująco: 
1. zainicjalizuj populację 

2. jeśli spełniony jest warunek zatrzymania, skończ 

3. zastosuj na populacji selekcję i mutację 

4. uzupełnij populację za pomocą operatora ktosowania 


13 


Wzmgr: v1.01 :: lrybicki@mat.uni.torun.pl -- wersja 0.1 z 27/5/2005r. 


5. uaktualnij ocenę jakości osobników 
6. wróć do pkt. 2 


Algorytmy genetyczne, choć promowane przez zwolenników jako uniwersalna metoda, 
nie dla każdego problemu są najwydajniejszą metodą i zdecydowanie nie dla każdego 
problemu można sprecyzować rozwiązujący go algorytm genetyczny. Ich wielką zaletą jest 
jednak łatwość zrównoleglania. Zwykle najbardziej kosztownym obliczeniowo elementem 
jest funkcja przystosowania, a ta jest liczona osobno dla każdej jednostki. W dalszej 
części rozdziału nie będę opisywał rozlicznych zastosowań algorytmów genetycznych do 
rozwiązywania problemów optymalizacyjnych, a skupię się na kilku modelach sztucznego 
życia, obejmujących spontaniczną poprawę jakości jednostek przez algorytmy genetyczne 


w takiej lub innej postaci. 


1.2.1. Życie, jakim mogłoby być 


Thomas Ray, profesor biologii, zadał elementarne pytanie - czym właściwie jest zycid?? Jed- 
na z definicji używanych przez biologów opiera się na określeniu cech wspólnych tworów 
powszechnie uważanych za żywe, z zaznaczeniem, że istnieją wyjątki: istoty uznawane 
za żywe, które nie wykazują jednej lub kilku cech charakterystycznych dla istot żywych. 
Na naszej planecie nie potrzebujemy ścisłej definicji czy jasnego zestawu cech charaktery- 
stycznych, żeby określić czy próbka jest elementem biosfery czy atmosfery lub litosfery. 
Jednak w obliczu rozwoju egzobiologii, teoretycznej w każdym razie, pytanie Raya powra- 
ca i nabiera nowego znaczenia. Kolejne próbniki i sztuczne satelity wysyłane na najbliższą 
naszej planetę na której woda może występować w formie płynnej - Mars - zawsze zawie- 
rają czujniki wyspecjalizowane w wykrywaniu zjawisk sugerujących możliwość istnienia 
życia. Wyniki tych badań dotychczas jednoznacznie nie odrzuciły możliwości istnienia na 
Marsie prostych form, zdolnych do aktywnego podtrzymywania przetrwania tak jedno- 
stek jak i całego gatunku. Planując kolejne misje i projektując instrumenty, badacze stale 
zadają sobie pytanie - jakie cechy życia na Ziemi będą się przekładały na ewentualne życie 
na Marsie? A jeśli jednoznacznie udowodnimy istnienie na Marsie form, które będziemy 
zmuszeni uznać za zjawisko podobne do którejś z form życia ziemskiego, w jaki sposób 
zmieni się nasza definicja życia? 

Ray, projektując pod koniec lat 80-tych symulację, którą nazwał Tierra, argumentował, 
że kolonie rozmnażających się agentów walczących o zasoby naturalne w wirtualnym 
środowisku nie są uproszczoną symulacją wykazującą zachowania podobne do życia 
biologicznego, a powinny być uznane za formę życia. Dla Raya symulowane środowisko 


ze swoimi zasobami naturalnymi nie jest modelem środowisk spotykanych na Ziemi, czy 


5W znaczeniu - obszar badań biologii. 
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- być może - na Marsie, a formą świata, w którym może funkcjonować anatomicznie 


przystosowana do niego forma życia. 


Zasoby naturalne w Tierra to czas procesora i pamięć - trzeba przyznać, że są to za- 
soby bardzo naturalne dla symulacji komputerowej, a także skończone i w pewnym sensie 
cenne. Istoty korzystające z takich zasobów naturalnych to ciągi instrukcji w prostym ję- 
zyku programowania, obejmującym interakcję między programami, między programem a 
otoczeniem oraz zdolność samokopiowania. Algorytm genetyczny nie był oparty na zapro- 
jektowanej funkcji przystosowania - przetrwanie i przekazanie genów zależało od działania 
samego programu, mutacja polegała na dodawaniu i usuwaniu fragmentów programu, co 
zachodziło z rozkładem Poissona. Programy były wykonywane w systemie czasu dzielo- 
nego - program otrzymywał dość krótkie okno czasowe, możliwość realizacji kilku swoich 
poleceń i sterowanie przekazywane było do innego. Program niezdolny zarezerwować so- 
bie odpowiedniej ilości pamięci do przetrwania czy umieszczenia w niej funkcjonalnej 
kopii samego siebie. Pomysł Raya, oparty na walczących ze sobą programach kompute- 
rowych nie jest ani pierwszym, ani ostatnim projektem tego typu - należy wspomnieć tu 
projekt CoreWars, czy bazujący na Tierra świat Avida autorstwa Chrisa Adami. 

System Tierra, zapłodniony jedną zaprojektowaną istotą (jedyną istotą zaprojektowaną 
przez człowieka), z czasem staje się ekosystemem pełnym zróżnicowanych stworzeń, które 
rozmnażają się, mutują i pozostają w złożonej interakcji. Ray zauważył istoty o pasożytni- 
czym trybie życia: wykorzystujące fragmenty kodu innych istot, by się rozmnażać. 

Idea samodoskonalącego się kodu programu komputerowego może się okazać zbawie- 
niem wobec faktu, że obecnie największy koszt przy produkcji oprogramowania ponosi się 
na etapie testowania. Program testuje się przez uruchomienie go w możliwie największej 
liczbie różnych sytuacji: dla różnych danych wejściowych, scenariuszy użytkowania, przy 
różnych konfiguracjach sprzętowych. Samodoskonalący się program lub komitet ewoluują- 
cych programów mógłby, teoretycznie, dostosowywać się do nowych sytuacji tak, by jak 
najlepiej spełniać wymogi specyfikacji. Taki program od programisty wymagałby tylko (al- 
bo aż) napisania specyfikacji. W ogólnym przypadku można się spodziewać, że stosowana 
obecnie metoda jest bardziej optymalna - nikt nie chce, aby jego ulubiony edytor tekstu na- 
gle zmutował, rezygnując z użytkownika jak z niepotrzebnej kończyny. Nie należy jednak 


odrzucać możliwości „hodowania” elementów programu. 


1.2.2. Framsticks 


Framsticks to opracowane przez Macieja Kosmosińskiego i Szymona Ulatowskiego opro- 
gramowanie modelujące ewolucję trójwymiarowych stworzeń (zwanych niekiedy framstic- 


kami). Projekt, od swojego oficjalnego powstania w roku 1997 był wielokrotnie nagradza- 
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ny i doczekał się wielu publikacji. Kolejne moduły i programy towarzyszące są rozwijane 
przez zespoły programistów mniej lub bardziej związanych z oryginalnymi twórcami. 

Framsticks modeluje trójwymiarowy teren, na którym umieszczane są istoty o budowie 
i umiejętnościach ściśle ustalonych przez ich indywidualne genotypy. Zależnie od mode- 
lowanego terenu i ustalonej miary jakości (fitness), istoty ewoluują w biegające jaszczurki, 
majestatycznie pływające meduzy lub wysokie drzewa - wszystko zależy od parametrów 
symulacji i poświęceonego czasu procesora. Oczywiście, wprawiony w nietypowych języ- 
kach programowania badacz dziedziny może zaprojektować i poddać symulacji własnego 
framsticka. 

Genotyp framsticka może być spisany w jednym ze stworzonych do tego celu języków 
programowania (raczej: formatów genotypów), oznaczanych f0, f1, f2 i tak dalej. Róż- 
nią się one restrykcyjnością w projektowaniu, jak też zakresem, np. f4 obejmuje nie tylko 
budowę, ale też proces wzrostu pojedynczego organizmu. Formaty f5 oraz f6 opisują che- 
mię i metabolizm framsticków. Format f7 to format przyjmujący dowolny ciąg znaków 
- łatwo poddaje się mutacji. W praktyce stosowane są trzy formaty - £0, jako najbardziej 
elementarny, głównie wewnętrznie w oprogramowaniu i do tworzenia bardziej fantazyj- 
nych framsticków, f1, jako najprostszy, pozwala szybko tworzyć duże framsticki, oraz f4, 
do realistycznych, zaplanowanych symulacji, w których oczekujemy, żeby framsticki rosły. 
Dostępny jest jeszcze format f0Fuzzy, pozwalający na rozwijanie wewnątrz framsticków 
kontrolerów na logice rozmytej. 

Format zero, f0, określa szczegółowo budowę framsticka w danym momencie rozwo- 
ju (o ile ma on możliwość rozwoju). Jest to format najmniej restrykcyjny i pozwala na 
budowanie szczegółowych, trójwymiarowych grafów, tworzących piramidy, wieże czy re- 
alistycznie wyglądające (i zachowujące się) organizmy. Jednego framsticka w formacie f0 


określa program składający się z ciągu linijek postaci: 
KLASA : WŁASNOŚĆ! , WŁASNOŚĆ2, 


gdzie KLASA to ustalony identyfikator klasy (np. staw oznaczany jest literą j), a WŁASNOŚĆ 
to specyfikacja własności danej klasy (położenie w przestrzeni, masa, rozmiar) i może 
mieć postać NAZWA=WARTOŚĆ, WARTOŚĆ lub postać pustego ciągu, oddzielonego przecinkami 
od sąsiadów. Nazwę własności można pominąć przy określaniu pierwszej własności, oraz 
własności następnej w naturalnej kolejności po dopiero określonej. Wartość może być liczbą 
naturalną, zmiennoprzecinkową lub ciągiem znaków - w takim wypadku objęta musi być 
cudzystowami. Jeśli dana własność nie jest wymieniona w specyfikacji, otrzymuje wartość 


domyślną. Tak więc, poprawne są linijki postaci: 


klasa:a=1,b=2,c=3,d=4 
klasa:1,2,3,4 


16 


Wzmgr: v1.01 :: lrybicki@mat.uni.torun.pl -- wersja 0.1 z 27/5/2005r. 


klasa:d=4,a=1,2,3 
klasa:1,,4 
klasa:c=",",d=3 


klasa: 


Niezależnie od wartości domyślnych dla własności a, b, c i d w klasie klasa, pierwsze 
trzy z wymienionych linijek są równoważne. Własności określające położenie obiektu w 
przestrzeni określane są najczęściej przez x=10,30,20 zamiast x=10, y=30 ,z=20. 

Klasy w formacie zero obejmują części konstrukcyjne framsticków (podłużne belki, 
oznaczane p od part), stawy (jak wspomniałem, oznaczane j, od joint), neurony (n) oraz 
wejścia neuronów (c, connection). Klasa p ma własności określające jej położenie w prze- 
strzeni (x, y oraz z), obrót w trzech osiach (rx,ry,rz), masę (m), rozmiar (s), gęstość (dn), 
współczynnik tarcia (fr), zdolność wytwarzania energii z pożywienia (ing), oraz fotosynte- 
zy (as). Staw, oprócz wskaźników na łączone części konstrukcyjne i współrzędnych obrotu, 
dysponuje parametrem sztywności przy zginaniu (stif) i obrocie (rotstif) i wytrzymało- 
ścią przy zderzeniach (stam). Samo wyliczenie cech tych komponentów daje dobre pojęcie 
o możliwościach środowiska symulacyjnego. 

Każdy framstick może (nie musi) dysponować siecią neuronową. Neuron, oprócz wła- 
sności p i j określających część i/lub staw, z którym jest połączony, dysponuje własnością 
d, której wartością może być ciąg znaków określających neuron. Opis w wartości wła- 
sności d może dotyczyć neuronu przetwarzającego sygnał, sensora lub mięśnia. Neurony 
przetwarzające sygnał dzielą się na sigmoidalne (N), róznicujące (D), progowe (Thr), stałe 
(*), losowe (Rnd), sinusoidalne (Sin) oraz rozmyte (Fuzzy). Każdy z nich dysponuje ze- 
stawem odpowiednich sobie parametrów. Mięśnie i sensory to: zginacz (|), obracacz (@), 
czujnik żyroskopowy (G, jego wartością jest tangens kąta nachylenia odpowiadającej mu 
części konstrukcyjnej), czujnik dotykowy (T), węch (S, reaguje na twory obdarzone energia), 
oraz czujniki wody (Water) i energii wewnętrznej framsticka (Energy). Przykładowo, ciąg 
Sin,f0:0.1,t:0.5 opisuje neuron generujący na wyjściu falę sinusoidalną o częstotliwości 
0.1 i fazie 0.5. 

Obiektowi każdej wymienionej dotychczas klasy można jeszcze przypisać indywidu- 
alny opis, w postaci ciągu tekstowego pod własnością i. Własności opisu nie posiada 
klasa „synaptyczna” (c), oprócz pary neuronów, których dotyczy (neuronu n oraz numeru 
jednego z jego wejść i), pozwala ustalić wagę połączenia: w. 

Genotyp musi spełniać kilka warunków poprawności, np. każdy staw musi mieć przy- 
pisane dokładnie dwie części, wszystkie części muszą tworzyć graf spójny, a przesunięcia 
i obroty na stawach nie mogą powodować konfliktów, jednak format f0 daje badaczowi 
ogromne możliwości. W oprogramowaniu podstawowym językiem dostępnym dla opera- 


tora jest f1, więc genotypy w f0 oznacza się ciągiem //0 w pierwszej linijce. 
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W formacie zero poprawne są następujące genotypy: 


Trzy części połączone w ciąg: 


:1,m=2 
:2,m=2 
3% 
:0,1 
:1,2 
:2,3 


au. a a o o! 


Prosty przykład z siecią neuronową: 


:0, 1, dx=1 

:p=1 

n:j=0, d="|:p=0.25,r=1" 
n:j=0, d=G 

n:p=1 

n:j=0, d=@:p=0.25 

1, d=T 


a 
>e W W W e O O r 
W OO w O O w Nd 
w 
KS 


` ` 


` 


` ` 


` 


Cztery części tworzące kwadrat - struktura niemożliwa do uzyskania w formatach f1 


czy f4: 


p:0,0 
p:1,0 
p:1,1 
:0,1 
:0,1 
:1.,2 
:2,3 
:3,0 
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Format f1 to język do szybkiego opisu framsticków. Programista nie musi koncentrować 
się na częściach i stawach z osobna, ponieważ do każdej części automatycznie dodawany 
jest staw. Połączenia między neuronami są ustalone na zasadach sąsiedztwa, a wartości 
ustalane liczbowo w f0 ustala się za pomocą jednoznakowych modyfikatorów. Drzewia- 
stość możliwych do skonstruowania struktur sprawia, że cały genotyp składa się z jednej 
(zwykle dość długiej) linijki. 

Składnia f1 obraca się wokół gałęzi (X) oraz rozgałęzień, oznaczanych nawiasami 
okrągłymi. O ile nie zostanie to określone inaczej, gałęzie wchodzące w skład rozgałęzienia, 
dzielą się po równo przestrzenią kątową na wspólnej płaszczyźnie. Trzy gałęzie (X(X,X) 
utworzą coś w rodzaju litery Y (choć do Y bardziej podobny jest genotyp XX(X,X)). W 
praktyce nie jest istotne która z gałęzi jest „rodzicem” rozgałęzienia, genotyp opisuje po 
prostu graf bez cykli. W genotypie opisującym strukturę podobną do pieska pierwszy 


symbol X może oznaczać prawą tylnią łapę lub końcówkę ogona. 


Dwa przecinki pod rząd wewnątrz rozgałęzienia sprawiają, że algorytm rozdzielania 
przestrzeni kątowej zachowuje się, jakby była między nimi kolejna gałąź, ale jej nie umiesz- 
cza: genotyp X(X, ,X) opisuje strukturę przypominającą literę T (znowu: literę T przypomi- 
na bardziej inny genotyp, XX (X, ,X)). Ogólnie - dwa X obok siebie zawsze oznaczają połą- 
czone ze sobą części konstrukcyjne, a dwa X oddzielone przecinkami i otoczone nawiasami 


oznaczają rozgałęzienie wychodzące z tego, co znajduje się po lewej stronie nawiasu. 


Własności poszczególnych gałęzi (czyli składających się na nie części konstrukcyjnych 
i stawów) określają modyfikatory, występujące przed symbolami X. Modyfikatory to poje- 
dyncze symbole, wielkie lub małe litery. Wielka litera oznacza zwiększenie własności w 
stosunku do jej wartości domyślnej, mała - zmniejszenie, np. wielka litera R obraca gałąź o 
45 stopni w jedną stronę, mała - w lewą. Q - wykręca gałąź, wraz z gałęziami połączonymi 
z nią na jednym z końców (obrót za pomocą R nie ma tej własności). C zgina staw na 
jednym z końców (paradoksalnie, genotyp CXX oznacza: gałąź, zgięcie, gałąź). Modyfika- 
tory L, W oraz F kontrolują własności fizyczne gałęzi - długość, wagę i tarcie, odpowiednio. 
Istnieją również modyfikatory określające funkcję biologiczną gałęzi, wzajemnie wyklu- 
czające się - gałąź może albo fotosyntetyzowaé (A), albo pełnić funkcję obronną (S), mieć 
wzmożoną siłę i szybkość mięśnia (M) lub wchłaniać pożywienie (I). Zmusza to projek- 
tanta do oszczędnego gospodarowania zasobami strukturalnymi framsticka. Przykładami 
poprawnych genotypów sa: XXX(XX,X), X(X,RRX(X,X)), X1CX1CX1CX. 


Sieć neuronową framsticka w formacie pierwszym buduje się przez umieszczenie 
opisów neuronów w nawiasach kwadratowych po symbolach odpowiadających im gałęzi: 
genotyp LLLLX[N] oznacza przedłużoną gałąź z przypisanym jej pojedynczym neuronem 
sigmoidalnym. Pojedynczej gałęzi może być przypisane kilka neuronów, w sąsiadujących 


nawiasach kwadratowych. Każdy genotyp w f1 można przetłumaczyć na f0. 
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www.frams.alife.pl 


Rysunek 1.8. Trzy framsticki 


Format czwarty jest pochodną formatu drugiego, opisującego wyłącznie łączenie części, 
i trzeciego, opisującego wyłącznie zasady rozbudowy framsticka. Przypomina f1, ale 
zamiast określać anatomię framsticka, zawiera instrukcje do poszczególnych jego części 
- jak mają się rozrastać. Części wykonują te instrukcje równolegle, a algorytm kończy się, 
gdy wszystkie części zakończą swoje „programy”. Częściami konstrukcyjnymi w f4 są 
komórki, które mogą być gałęziami, neuronami lub komórkami macierzystymi, zdolnymi 
przekształcić się w neuron lub gałąź. Symulacja rozpoczyna się od pojedynczej komórki 
macierzystej. Najprostszym przykładem genotypu w f4 jest /*4*/X, generujący w jednym 
kroku framsticka składającego się z pojedynczej gałęzi. 

Trudniejszy i zarazem bardziej interesujący przykład: /*4*/<X>X. Symbole < oraz > 
nie są nawiasami kątowymi otaczającymi pierwszy symbol X, to instrukcje dla komórek 


macierzystych. Proces rozwoju wygląda tu następująco: 


1. początkowa, jedyna komórka macierzysta wykonuje instrukcję < (podziel się) i tworzy 


nową komórkę macierzystą 


2. ta sama, pierwsza komórka wykonuje instrukcję X i zamienia się w gałąź, równolegle 


- nowa komórka macierzysta wykonuje drugą instrukcję X i zamienia się w gałąź 


3. pierwsza komórka natrafia na instrukcję > (skończ), druga nie znajduje dla siebie 


instrukcji, więc również kończy rozwój. 
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Oznaczając pierwszą komórkę macierzystą jako ., adrugą przez ,, można ten proces 


przedstawić następująco: 
1. .<X>X - komórka macierzysta znajduje swoją instrukcję - < 


2. .X>,X - nowa komórka macierzysta znajduje koniec instrukcji swojej komórki rodzi- 


cielskiej 
3. X>X - obie komórki przyjęły postać gałęzi (X) 
4. XX - obie komórki skończyły rozwój. 


Formalnie, każdy genotyp w f4 pownien kończyć się symbolem końca rozwoju, jednak 
symbol ten można pominąć, dzięki czemu genotyp wygląda bardziej estetycznie - z tą 


samą ilością <, co >. Instrukcje dla komórek to: 


e X- zamień się w gałąź (po zamianie w gałąź komórka nie może wykonywać instrukcji 


podziału (<) 
e N - zamień się w neuron (sensor, efektor) 


e , - zwiększ kąt rozgałęzienia, równoważne dopisaniu , wewnątrz nawiasów w f1 


kody odpowiadające modyfikatorom gałęzi - komórka je po prostu przepisuje 


kody mięśni - neuron staje się neuronem odpowiedniego typu 


e #- znacznik powtarzania, po nim następuje ilość iteracji i ciąg instrukcji zakończony 


> 


Niezależnie od wybranego języka w którym opisywane są genotypy, symulowane istoty 
umieszcza się w zaprojektowanym lub losowo wygenerowanym kwadratowym środowi- 
sku, obejmującym nierówności terenu, wodę i kulki pożywienia. Format pliku, w którym 
dostarcza się danych do symulacji obejmuje znacznie więcej niż graficzny interfejs użyt- 
kownika i umożliwia ręczne tworzenie bardzo skomplikowanych symulacji i skryptów 
modyfikujących warunki w czasie rzeczywistym. 

Na podstawową symulację Framsticks składa się pula genów - zbiór stworzeń napi- 
sanych w jednym z formatów f0, f1 lub £4 i zasady algorytmu genetycznego. Pula ge- 
nów musi składać się z przynajmniej jednej jednostki - wytworzonej „z ręki” lub powstałej 
wskutek mutacji z prostszego stworzenia (co nie znaczy, że mutacja zawsze zwiększa kom- 
plikację genotypów). 

Przed rozpoczęciem symulacji określa się maksymalną wielkość puli genów, metodę 


selekcji i wzór na funkcję przystosowania. Metoda selekcji może być jedną z trzech - losowe 
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odrzucanie jednostek, odrzucanie najsłabszych lub odrzucanie według prawdopodobień- 
stwa - nierówne koło fortuny. Nowe genotypy powstają wskutek mutacji (dopisywanie lub 
usuwanie fragmentów genotypów z zachowaniem poprawności syntaktycznej) i krzyżo- 
wania genotypów pozostających w populacji. O krzyżowaniu decyduje nie tylko funkcja 
przystosowania, ale też stopień podobieństwa rodziców - autorzy w ten sposób unikają 


problemu tracenia dobrych cech, o którym wspominałem. 


Funkcję przystosowania określa się na podstawie średniej ważonej parametrów fram- 
sticka - prędkość, wysokość, czas życia (ma znaczenie jeśli na planszy istnieje pożywienie, 
a framstick potrafi je znajdować i spożywać). Odpowiednio nią manipulując, można wy- 
tworzyć istoty pnące się ku górze, szybko poruszające się, wytrzymałe na uderzenia, lub 
przejawiające po części wszystkie te cechy. Ewolucja framsticków trwa jednak niezwykle 
długo, co jest spowodowane metodą obliczania funkcji przystosowania - jest ona szacowana 
gdy istota wyczerpie swoją energię, co może trwać dość długo u dobrze przystosowanych 


framsticków. Dostępny jest projekt rozproszonego ewoluowania framsticków. 


1.3. Modelowanie zachowania 


Modele istot w Framsticks mają proste sieci neuronowe, pozwalające im reagować na zmia- 
ny w otoczeniu i wykonywać cyklicznie powtarzające się ruchy. Teoretycznie możliwe jest, 
aby wyewoluowała kreatura zdolna przetrwać w nieskończoność w niesprzyjającym tere- 
nie, o ile pożywienia będzie regularnie przybywało - jej głównym zajęciem byłoby unikanie 
niebezpieczeństwa i znajdowanie pożywienia framstickowym zmysłem węchu energetycz- 
nego, jednak taka symulacja niesie ze sobą pewne ograniczenia. Złożona fizyka świata 
zajmuje większość czasu procesora, a ukierunkowanie oprogramowania na algorytmy ge- 
netyczne czyni modele uboższymi - framsticki są ograniczone do tego, co można zapisać 


w ich genotypach. 


Tworzenie sztucznego życia ma na celu poznanie zasad funkcjonowania organizmów 
żywych nie tylko w kontekście rozmnażania się, ale też zachowań. Skąd pojedyncza ryba 
w ławicy wie, że stanowi element wielkiej, błyszczącej formacji, która ma na celu zmylenie 
drapieżnika? Gdzie jest termit-architekt, który wie jak ma wyglądać kopiec? 

Subtelna różnica między metodologią sztucznego życia, a sztucznej inteligencji pole- 
ga na podejściu do problemu. W sztucznej inteligencji szuka się rozwiązania problemu 
przez analizę celu, czy celem jest analiza języka naturalnego, czy gra w szachy. W a-life 
stosuje się podejście eksperymentalne. Wiedząc, że problem posiada rozwiązanie w natu- 
rze i obserwując sposób, w jaki problem jest rozwiązany, konstruuje się symulację i bada 


się, czy symulowane „istoty” rozwiązują problem, a także - czy przy uproszczeniach ko- 
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niecznych do przeprowadzenia symulacji, pojawiają się pewne dodatkowe, skomplikowane 
zachowania, tzw. zachowania wynikające (emergent behaviour). 

W 1986 roku, Craig Reynolds zaprezentował wyniki eksperymentu, który odbił się 
echem zarówno w dziedzinie sztucznego życia, co w dziedzinie animacji komputerowej. 
W trójwymiarowej przestrzeni symulacji umieścił kolonię identycznych agentów, zwanych 
„boids'f| dając każdemu możliwość poruszania się w przestrzeni i identyczny zestaw 


instrukcji: 
e unikaj zderzeń 
e podążaj w tym samym kierunku co sąsiedzi 
e trzymaj się w pobliżu sąsiadów 


Sąsiedztwem boida są wszystkie boidy znajdujące się bliżej niż pewien ustalony pro- 
mień sąsiedztwa, z wyłączeniem tych znajdujących się za nim, wewnątrz pewnego kąta 
- obie wartości są modyfikowalnymi parametrami w symulacji. Boid nie może się zatrzy- 
mać, może jedynie modyfikować kierunek swojego lotu. Modyfikacja następuje w każdym 
kroku symulacji i jest wypadkową wektorów wynikających z trzech reguł sterowania. 

Te trzy proste reguły zaowocowały niezwykle realistyczną symulacją przypominającą 
stado ptaków lub ławicę ryb. Zachowaniem wynikającym jest tu tworzenie spójnego stada - 
z reguł rządzących zachowaniem jednostki wynika zachowanie grupy. Traf chciał, że kilka 
miesięcy po publikacji pracy Reynoldsa, Chris Langton organizował warsztat - Artificial 
Life Workshop. Projekt boids jest od tej pory uznawany za wzorcowy projekt z dziedziny 
sztucznego życia. 

Reynolds zastosował technologię w krótkim filmie animowanym pt. „Stanley and Stel- 
la”. Później metoda modelowania zachowania została zastosowana do renderowania stad 
nietoperzy i człapiących przez miasto pingwinów w filmie „Powrót Batmana”, galopują- 
cych antylop w „Król Lew” i tłumów ludzi w „Mulan”. 

Projekt boids doczekał się wielu modyfikacji - sam Reynolds uzupełnił model o regułę 
dąźenia do celu i unikania nieruchomych przeszkód. Stado, wobec niebezpieczeństwa 
zderzenia, rozdzielało się na dwie części, które w płynny sposób łączyły się w jedną 
większą grupę. Inne modele uwzględniały podążanie za przodownikiem stada, ucieczkę 
przed drapieżnikiem, śledzenie wyznaczonej linii, grę w berka, ustawianie się w kolejce, 
ucieczkę z pomieszczenia z jednym wyjściem i wiele innych. W każdym modelu złożona 
koordynacja stadnego zachowania następuje bez odgórnej kontroli, czy nawet komunikacji 
między jednostkami. 

Oprogramowanie Breve zapoczątkowane przez Jona Kleina jako element pracy magi- 


sterskiej umożliwia konstruowanie symulacji zachowań stadnych przy założeniu dowol- 


Dziecięca wymowa angielskiego słowa bird - ptak. 
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nych reguł, z agentami, które mogą być pojedynczym punktem, a mogą być złożonym z 
kilku brył tworem na kształt framsticka. Symulacja może generować dźwięk, obraz, wy- 
korzystując agentów jako kolonię wirtualnych pędzli, a także implementować algorytm 
genetyczny. Ciekawą symulacją dodaną do programu jako przykład jest symulacja stada 
zbieraczy. Zbieracze poruszają się w trójwymiarowym środowisku, przenosząc obiekty, 


które można utożsamiać z pożywieniem. Rządzą nimi cztery reguły: 
e jeśli nie masz w otoczeniu pożywienia - błądź losowo 
e jeśli widzisz pożywienie, a jeszcze nie przenosisz - złap 
e jeśli przenosisz pożywienie, a nie widzisz w otoczeniu - błądź 
e jeśli przenosisz pożywienie, a znajdziesz się w miejscu, gdzie jest go dużo - zostaw. 


Błądzenie losowe w tej symulacji oznacza orbitowanie wokół środka ciężkości całego 
zbioru pożywienia z drobnymi, losowymi zmianami kierunku ruchu, dzięki którym zbie- 
racz nie porusza się stale w tej samej płaszczyźnie. Po dłuższym czasie symulacji można 
zaobserwować, że pożywienie, początkowo rozłożone równomiernie po przestrzeni sy- 
mulacyjnej, zaczyna formować wysepki. Stopniowo, mniejsze wysepki zaczynają znikać, 
a większe powiększają się jeszcze bardziej, aż pożywienie tworzy jedno zagęszczenie, a 
zbieracze przenoszą je w tę i z powrotem. Zachowaniem wynikającym jest tu pozornie 


skoordynowane tworzenie zbiorowiska, bez wcześniej przygotowanego planu. 


1.4. Wnioski 


Dziedzina sztucznego życia jest rozwijającą się gałęzią wiedzy, co widać po różnorodności 
modeli. Należy tu zaznaczyć, że wymienione wcześniej projekty nie stanowią przeglądu 
dziedziny, a tylko linię genealogiczną od modeli obliczeń opartych na rozważaniach sy- 
mulowania życia, poprzez ukucie terminu sztuczne życie, po modele, które stały się bezpo- 
średnią inspiracją dla projektu BrainLab. W dziedzinie sztucznego życia dzieje się znacznie 
więcej - od fotorealistycznej symulacji wzrostu roślin, po symulacje całych ekosystemów, 
pozwalające na przewidywanie wpływu czynników środowiskowych na liczebność gatun- 
ków na danym terenie. 

Symulacje z dziedziny sztucznego życia z biegiem czasu stają się coraz bardziej zło- 
zone, coraz bardziej zaczynają przypominać biologiczne stworzenia, nie tylko spełniając 
charakterystyczne dla nich funkcje, ale też wizualnie - gwałtowny przyrost dostępnej mocy 
obliczeniowej pozwolił na symulację istot o choreografii godnej roli w filmie. Modele zbu- 
dowane, by funkcjonować w fizycznym świecie, jak małe roboty tworzone przez Rodneya 


Brooksa, znajdują zastosowanie w zadaniach wymagających wykonania prostej czynności 
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na dużym terenie w możliwie krótkim czasie - jak sprzątanie czy znajdowanie min. Od cza- 
su teoretycznych rozważań Newmanna i gry Conwaya, biologicznie inspirowane modele 
interakcji i rozwoju jednostek pośrednio lub bezpośrednio prowadziły do rozwoju nowych 
technologii i dziedzin wiedzy, co jest tylko naturalną kontynuacją tradycji podpatrywania 


natury przy projektowaniu nowych wynalazków. 
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V 


D 


Rysunek 1.9. Boid ma unikać zderzeń. 


Rysunek 1.10. Boid ma trzymać się blisko stada. 


Rysunek 1.11. Boid ma kierować się w tym samym kierunku co sąsiedzi. 
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ROZDZIAŁ 2 


Uczenie ze wzmocnieniem 


2.1. Uczenie maszynowe 


Uczenie maszynowe stosujemy tam, gdzie nie jesteśmy w stanie znaleźć analitycznego 
rozwiązania problemu lub tam, gdzie dokładna, algorytmiczna metoda jest bardziej kosz- 
towna obliczeniowo niż heurystyka oparta na uczeniu. Im częściej oczekujemy od ma- 
szyn i oprogramowania aktywnej interakcji z użytkownikiem lub otoczeniem, tym częściej 
natrafiamy na tego typu problemy - zestawy danych statystycznych nie generowane, a 
zbierane w świecie rzeczywistym, np dane medyczne, mają bardzo nietypowe rozkłady, 
co uniemożliwia jednoznaczne określenie reguł pozwalających klasyfikować pojedyncze 
przypadki. Niekiedy głównym utrudnieniem jest zmienność warunków w czasie - problem 
klasyfikacji spamu i innej niechcianej poczty nie daje się rozwiązać pojedynczym algoryt- 
mem, ponieważ twórcy masowej poczty szybko dopasowują jej treść tak, by przypominała 
normalne wiadomości. Alternatywą dla stałego projektowania nowych algorytmów jest al- 
gorytm uczący się, który z pewną pomocą użytkownika stale dopasowuje się do nowych 
wynalazków spammerów. 

Co to znaczy, że dany system się uczy? Tom Mitchell w [9] pisze, że uczenie maszynowe 
to dziedzina wiedzy dotycząca algorytmów, które automatycznie poprawiają się przez 
doświadczenie. Z ogółu modeli uczących się można wywnioskować, że uczenie maszynowe 
polega na ukierunkowanej modyfikacji parametrów systemu na podstawie danych, przy 
ustalonej mierze jakości uczenia. Mamy więc dane, parametry systemu i metodę oceny, czy 
uczenie się udało. 

Zależnie od sformułowania problemu i postaci oczekiwanej odpowiedzi, wyróżnia się 
kilka modeli uczenia maszynowego. 

Uczenie bez nadzoru dotyczy między innymi sieci samoorganizujących się. Zadaniem 
sieci jest dopasować swoją strukturę do danych tak, by odzwierciedlić ich strukturę - nie 
tylko podzielić na pewną ilość kategorii, ale też wykazać zależności między kategoriami. 

Uczenie z nauczycielem polega na podsuwaniu systemowi uczącemu się danych wejścio- 
wych i oczekiwanego wyjścia tak długo, aż dokładność odtwarzania będzie zadowalająca. 
Oczekiwanym od tak uczonych systemów zachowaniem jest generalizacja, czyli zadowala- 
jące odtwarzanie poprawnych odpowiedzi dla wzorców, które nie znajdowały się w zbiorze 
treningowym. 


Co jednak jeśli nie znamy poprawnej odpowiedzi (albo znamy, ale chcemy, aby uczący 


27 


Wzmgr: v1.01 :: lrybicki@mat.uni.torun.pl -- wersja 0.1 z 27/5/2005r. 


się agent sam ją odkrył), ale jesteśmy w stanie określić jaka odpowiedź czy zachowanie 


jest odpowiednie lub zadowalające? 


2.2. Procesy decyzyjne Markowa 


Procesem decyzyjnym nazywamy wędrówkę agenta!] podejmujacego decyzje o poruszaniu 
się w zmiennym środowisku i otrzymujacego za każdym krokiem pewne liczbowe wy- 
nagrodzenie. Dla agenta szukającego wyjścia z labiryntu, wynagrodzeniem jest odległość 
od wyjścia. Dla eksperymentującego komiwojażera, wynagrodzeniem jest ujemna wartość 
długości dotychczas przebytej drog?| W ogólności, nie wszystkie akcje mogą być dopusz- 
czalne w danym stanie. Przyjmuje się wtedy, że przy podjęciu takiej niedopuszczalnej akcji, 


stan nie zmienia się. 


Definicja 2.2.0.1 Formalnie, proces decyzyjny składa się z: 
e zbioru akcji A i stanów S, z wyróżnionym stanem początkowym s” € S, 


e rozkładu prawdopodobieństwa następnego stanu - P(s141|s+, az), gdzie st € S, al € A, t to 


dyskretny czas, 
e rozkładu prawdopodobieństwa wartości wynagrodzenia - P(r;|s;, at). 


Zbiór akcji można sobie wyobrazić jako zbiór możliwości agentą] Stan oznacza stan 
środowiska agenta. Gdy agent porusza się lub w jakiś sposób zmienia swoją reprezentację, 
jego współrzędne i zmienne właściwości są częścią stanu środowiska. Wynagrodzenie, 
nawet jeśli w konkretnym modelu przydzielane jest przez agenta samemu sobie, uważa 
się za pochodzące od środowiska (bo zależy od jego stanu) lub od metaforycznego krytyka. 

Każde przejście procesu decyzyjnego składa się z kroków w dyskretnym czasie. W 
kroku t środowisko (wraz z agentem) jest w stanie s+, agent podejmuje decyzję i wykonuje 
akcję a;. Za tą decyzję otrzymuje wynagrodzenie rf] Zależnie od stanu poprzedniego 
i akcji agenta, środowisko zmienia stan s;+1. Zmiana może nie być deterministyczna - 
podjęcie akcji a w stanie s nie musi całkowicie determinować nowego stanu. Zadaniem 
agenta jest podjęcie takiej akcji, by zmaksymalizować sumaryczną wartość oczekiwaną 


wynagrodzenia w przebiegu procesu] 


!Pojęcie agenta będzie w tym rozdziale szeroko rozumiane. W abstrakcyjnym sensie, agent jest punktem 
odniesienia w przestrzeni w chwili t. 

"Wynagrodzenie jest po to, by je maksymalizować, stąd ujemna wartość. 

ŚW starym już dowcipie było - prawo, lewo, góra, dół i fajer! 

*Stosuje się tu rozróżnienie ról - stan jest stanem środowiska, akcja należy do agenta, wynagrodzenie 
przychodzi od środowiska do agenta. To rozróżnienie nie musi odpowiadać podziałowi agent-środowisko w 


przykładach. 
"Najczęściej maksymalizuje się wynagrodzenie dyskontowane w czasie, by faworyzować szybkie rozwią- 


zania. O tym później. 
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Pozornie zdawałoby się, że wystarczy znaleźć dla każdego stanu s € S odpowiadającą 
mu akcję a € A, maksymalizującą oczekiwaną jednokrokowa wypłatę akcji dla stanu 
(metoda zachłanna): 

rs(a) = Ez(r*|s* = s,a* = a) (2.1) 


Jednak strategia zachłanna nie zawsze jest optymalną - akcja dająca dobrą wypłatę może 
doprowadzić do stanu, dla którego żadna akcja nie da dobrego wynagrodzenia, a przej- 
ście do lepszego stanu będzie mało prawdopodobne lub niemożliwe - wydanie całych 
oszczędności jednego dnia daje chwilowe zadowolenie, ale prowadzi do natychmiastowe- 
go ubóstwa. 

Należy więc szukać metody maksymalizującej sumaryczne wynagrodzenie do ustalo- 
nej chwili t lub, w sytuacji gdy nie można wyróżnić końca, metody podejmowania decyzji 
maksymalizujących wynagrodzenie w pewnych ograniczonych odstępach czasu. Zwykle 
wyróżnia się tylko początek procesu i maksymalizuje się zdyskontowaną wartość oczeki- 


waną wynagrodzenia: 


00 
p En 


t=0 


50 = s (2.2) 


gdzie y € [0,1] to współczynnik dyskontowania. 
Parametr y = 0 sprawia, że porównywane jest wyłącznie natychmiastowe wynagrodze- 
nie, y = 1 - suma wszystkich wzmocnień, która może być nieskończona w nieskończonym 


przebiegu. Rola współczynnika y będzie omówiona później (31). 


Definicja 2.2.0.2 Procesem Markowa nazywamy wektor zmiennych losowych 4 X; jen, spełnia- 


jących własność: 
P(X: = j|Xo = io, Xi Fa, A 1) = P(X: = AL = i1) (2.3) 


czyli, interpretując t jako czas, stan obecny jest warunkowo niezależny od przeszłości 
dalszej niż stan poprzedni. Proces Markowa można sobie wyobrazić jako graf skierowany, 
którego wierzchołkami są wektory wartości zmiennych losowych (stany), a krawędzie 
znaczone są prawdopodobieństwem przejścia między stanami. 

Proces decyzyjny nazywamy procesem decyzyjnym Markowa (Markov Decision Process, 
MDP), o ile rozkład prawdopodobieństwa wartości wynagrodzenia i stanu następnego za- 
leży wyłącznie od stanu obecnego i decyzji podjętej przez agenta - jest to proces Markowa, 
w którym znalazł się podejmujący decyzje agent. Jeśli ilość możliwych stanów i akcji jest 
skończona, mówimy o skończonym procesie decyzyjnym Markowa. 

Gra w Samotnika jest skończonym procesem decyzyjnym Markowa - dokładny stan 
gry po wykonaniu ruchu, jak też możliwość pomyślnego zakończenia gry, deterministycz- 
nie zależy od wykonanego ruchu, ilość możliwych konfiguracji pionków jest skończona. 


Nieistotne, czy gracz zaczynał od stanu surowego, czy kontynuował czyjąś przerwaną grę 
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stan 


wzmocnienie 


Rysunek 2.1. Proces decyzyjny Markowa 


- jego decyzja w danym momencie będzie miała dokładnie taki sam skutek (rozkład sku- 
piony w jednym punkcie). Mniej trywialnym przykładem jest ruletka - wybieram stawkę, 
decyduję się na liczbę i/lub kolor i, o ile kasyno jest uczciwe, tym samym determinuję 
rozkład prawdopodobieństwa możliwej wypłaty. Stan środowiska w czasie t + 1 również 
zależy od podjętej decyzji - choć w skutek moich działań koło nie zmieni swoich własności, 
jeśli pozbędę się żetonów, moje możliwości decyzyjne będą dość ograniczone. 
Rozwiązywanie procesów decyzyjnych Markowa jest domeną uczenia ze wzmocnie- 


niem. 


2.3. Uczenie ze wzmocnieniem 


Uczenie ze wzmocnieniem (reinforcement learning) to motywowana psychologicznie techni- 
ka uczenia maszynowego, w której systemowi uczącemu się nie jest podawana prawidłowa 
odpowiedź, a tylko wartościowanie każdego kroku, zwane wynagrodzeniem lub wzmoc- 
nieniem] Zadanie agenta polega na wykształceniu strategii maksymalizującej oczekiwaną 
wartość wzmocnienia. Strategia może być deterministyczna: m: S — A lub niedetermini- 


styczna: r(a|s) = P(a = als; = s),s E€ S,a EA. 


Uczenie ze wzmocnieniem nazywa się też uczeniem z krytykiem. Jest to bardzo obrazo- 
wa, ale o tyle niefortunna nazwa, że sugeruje możliwość krytyki jako formy karania agenta. 
Wzmocnienie może przyjmować dowolne wartości, ale zawsze liczy się porównanie - czy 
w stanie s € S akcja a € A przynosi większe wzmocnienie niż akcja a € A. Nie wyróż- 


nia się granicy, oddzielającej wzmocnienie nagradzające od karzącego i, choć model jest 


STermin wynagrodzenie (reward), którego używałem w poprzedniej sekcji, jest bardziej ogólny: termin 
wzmocnienie (reinforcement) zaczerpnięty jest z psychologii i zakłada zdolność agenta do uczenia się. Różnica 


jest w zasadzie formalna. 
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symetryczny i zawsze można postawić minus i minimalizować zamiast maksymalizować, 


przyjęło się, że wzmocnienie jest maksymalizowane. 


środowisko 


u 
wzmocnienie 


Rysunek 2.2. Interakcja agenta ze środowiskiem w uczeniu ze wzmocnieniem 


Chcąc porównać dwie strategie, mı i 72, należy porównać nie tylko oczekiwaną wartość 
sumy wzmocnienia uzyskanego podczas eksploracji (w przypadku zapętleń wzmocnienie 
może być nieskończone), ale też uwzględnić czas uzyskiwania poszczególnych wartości 
wzmocnienia tak, aby „impuls” wzmocnienia, który nadszedł wcześniej był więcej wart 
niż taki sam impuls po większej ilości kroków. Czynnikiem odpowiadającym za dyskon- 


towanie długotrwałych strategii jest wspomniany już czynnik 7. 


Definicja 2.3.0.3 Funkcją jakości stanu s € S dla strategii r nazywamy funkcję wyznaczoną 
następująco: 


V"(s) = Er bs a'r 
t=0 


gdzie y € [0,1], a E, oznacza wartość oczekiwaną przy stosowaniu strategii m. 


so = s (2.4) 


Funkcję V można interpretować jako funkcję jakości strategii, przy ustalonym stanie po- 
czątkowym lub wartości stanu s € S dla strategii 7. 


Wyróżnia się też funkcję jakości pary stan-akcja dla strategii r. 


Definicja 2.3.0.4 Funkcją jakości pary stan-akcja, lub Q-funkcją nazywamy funkcję zadaną przez: 


O” (s,a) = Er ra) + Soy 


t=1 


So = 8,49 = | (2.5) 


gdzie f(s, a) jest oczekiwanym wynagrodzeniem za podjęcie akcji a w stanie s. 


Funkcja Q jest ściśle związana ze strategią m - jej wartość dla danej pary stan-akcja 


zależy od tego, jaką strategię będzie wykonywał agent w dalszych krokach. Jednocześnie 
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parametry a i s są niezależne od strategii, dzięki czemu można podejść do problemu z 


drugiej strony - zdefiniujmy strategię 7” jako maksymalizację wartości funkcji Q”: 
q' (8) = argmax,¿Q” (s, a) (2.6) 


Agent wykonuje tą akcję w stanie s, dla której wartość Q”(s,a) jest największa, przy 
założeniu, że w kolejnych krokach agent będzie wykonywał strategie 7. Strategia 7’ może 
być inna niż wyjściowa strategia 7. Gdy m nie wybiera optymalnej (w sensie ©) akcji dla 
stanu s, strategia 7’ wybiera bardziej opłacalną akcję, więc, przynajmniej w tym jednym 
kroku, daje większe wzmocnienie. Jednak stosowanie strategii 7’ na dłuższą mete moze 
stać się nieopłacalne - bazuje ona na założeniu, że kolejne akcje agent podejmuje według 
strategii 7. 

Powyższe zapętlające się rozumowanie prowadzi nas do szkicu iteracyjnej metody, w 
której każdy kolejny krok poprawia wydajność strategii. Dla strategii 7” istnieje odpowia- 
dająca jej funkcja Q”. Dla tej funkcji istnieje strategia r”, zdefiniowana analogicznie do 
n’, i tak dalej. Przy odpowiednich założeniach ten proces jest zbieżny. W tej szkicowej po- 
staci algorytm jest niezwykle kosztowny w implementacji - przejście od 7 do 7’ wymaga 
nie tylko znalezienia maksimum wartości Q dla każdego stanu, ale też wyznaczenia nowej 
funkcji Q” przez rzeczywiste stosowanie strategii 7’ przez pewien cza | dla każdego stanu 
początkowego i wszystkich możliwych akcji. 

Przez Q oznacza się funkcję Q” dla globalnie optymalnej strategii 7°} W dalszej części 
rozdziału, Q może oznaczać pewną funkcję jakości pary stan-akcja, aproksymację takiej 


funkcji lub ciąg aproksymacji zbiegający do optymalnej funkcji Q. 


Definicja 2.3.0.5 Q-uczeniem nazywamy iteracyjną modyfikację wewnętrznej reprezentacji (tabe- 
larycznej lub aproksymacyjnej) funkcji Q i odpowiadającej jej strategii r tak, by z każdą modyfikacją 


zwiększać oczekiwaną, dyskontowaną wartość wynagrodzenia. 


2.4. Q-uczenie 


Obserwacja o zależności funkcji Q od strategii sugeruje zastosowanie rekurencyjnego 
programowania dynamicznego. Skoro funkcja jakości pary stan-akcja wyznacza strategię, 
wystarczy trzymać w tabeli wartości funkcji Q dla poszczególnych stanów i akcji i wybierać 
w danym stanie akcję maksymalizującą wartość w wierszu | tzw. strategia zachłanna. 


Wychodząc z obserwacji, że: 


Q(st, at) = Ts, (a) + y - V(st+1) (2.7) 


Tak, aby zmiana była obliczeniowo pomijalna dzięki czynnikowi dyskontującemu. 
SCały czas optymalność strategii zależy od czynnika y. Zakładamy, że czynnik y jest ustalony w zadaniu. 


*Przyjmijmy dla ustalenia uwagi, że w tabeli wiersz odpowiada stanowi, a kolumna - akcji. 
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a jednocześnie, przy stosowaniu strategii r*: 
V (si4+1) © MATącAQ(5t+1,0). (2.8) 
Stąd mamy sugestię algorytmu uaktualniania aproksymatora funkcji Q: 
Q(st, 01) := Ts, (at) + ymaxacaQ(Ht41, 0). (2.9) 


Udowodniono ([21]), że dla skończonych procesów decyzyjnych Markowa taka tabe- 
laryczna reprezentacja funkcji Q jest zbieżna, o ile mamy dane wypłaty dla wszystkich 
stanów i akcji (uczenie batchowe). Wystarczy zainicjować tabelę, by zawierała jednokroko- 
we oczekiwane wzmocnienia i uaktualniać synchronicznie. 

W wersji on-line[15] algorytmu zamiast oczekiwanej wypłaty r., (a+) używa się ostatnio 
uzyskanej wypłaty - r+ W przypadku deterministycznym r; = r;,(a:), w przypadku 
niedeterministycznym dłuższa eksploracja daje dobre przybliżenie wartości oczekiwanej. 

W uczeniu on-line, kolejne komórki uaktualnia się asynchronicznie, w kolejności eks- 
ploracji - po (s+, a¢) uaktualniona zostanie (s¢+1, a++1). Algorytm aktualizacji[2.9}w tej wersji 


ma postać: 


Q(st, at) := (1 — 6) Q(s¢, at) + r [re + Y * QO Se41, G141)| (2.10) 


i nosi nazwę SARSA, od piątki parametrów potrzebnych do dokonania aktualizacji: sę, az, 
Ti, St+1 OTAZ Qę1. 

Z implementacyjnego punktu widzenia, agent dysponuje tabelą wartości funkcji Q dla 
wszystkich możliwych stanów i akcji (lub sprytnym aproksymatorem), inicjalizowaną loso- 
wo lub heurystyczniq™| Znajdujac się w stanie s; € S, agent znajduje w tabeli odpowiada- 
jący temu stanowi wiersz, w nim znajduje pole zawierające najwyższą wartość i wykonuje 
akcję odpowiadającą kolumnie, w której jest to pole. Następnie obserwuje wynagrodzenie 
rę, nowy stan s;+1, wykonuje akcję a, +, i aktualizuje pole (sę, a+) w tabeli zgodnie z 
Aktualizacja tabeli następuje zawsze po kolejnym kroku. 

SARSA należy do klasy algorytmów rozwiązujących procesy decyzyjne Markowa na 
podstawie przesunięć czasowych (time difference, TD-learning). 


Dla algorytmów klasy TD wyznacza się funkcję błędu czasowego (TD-error): 
Erp(st, 41) = re + YO(St+1, 0141) — Q(st, at). (2.11) 


Dla SARSA błąd jest dokładnie różnicą między poprzednią, a nową wartością w ko- 


mórce (s+, a.) tabeli. 


Tnicjalizacja powinna uwzględniać zakres wynagrodzenia dostępnego w problemie. 
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2.5. Częściowo obserwowalne procesy decyzyjne Markowa 


Przykładem gry, która nie pasuje do definicji procesu decyzyjnego Markowa jest pokef!] 
Każdy z graczy dysponuje tylko częścią opisu środowiska - widzi tylko swoje karty. Na 
podstawie informacji, że inni gracze są w podobnej sytuacji (też mają po 5 kart), gracz mu- 
si zmaksymalizować wypłatę, która zależy nie tylko od jakości posiadanych kart, ale też 
od kart posiadanych przez przeciwników (ta wiedza nie jest mu dana), jak też skłonności 
przeciwników do dorzucenia żetonów do puli. Działanie tylko na podstawie obserwowanej 
części stanu środowiska jest nieoptymalne - gracz, którego zakłady odzwierciedlają jakość 
posiadanego układu pięciu kart, co wydaje się być najlepszą strategią w obliczu posia- 
danych informacji, zdobędzie mniej żetonów niż gracz starający się odgadnąć jakość kart 
innych graczy (zmienne ukryte) i dopasuje swoje zakłady. Mając słabsze karty niż któryś z 
przeciwników można wygrać, o ile przeciwnik straci wiarę w swoje karty i je odłoży (blef). 
Gra jest tym bardziej ciekawa, gdy uczestniczy w niej kilku doświadczonych pokerzystów 
i każdy opracowuje swoją strategię na bazie założenia, że pozostali mogą prezentować 
pokerową twarz. 

Proces decyzyjny Markowa nazywamy częściowo obserwowalnym (Partially Observable 
Markov Decision Process, POMDP) jeśli agentowi dana jest tylko fragmentaryczna informacja 
o stanie środowiska, zależna od stanu środowiska. Patrząc z punktu widzenia agenta - 
zakłada on, że znajduje się w procesie Markowa, ale nie zna pewnych czynników, które 
determinują przebieg procesu. Warto tu zauważyć, że te ukryte zmienne są zależne od 
akcji agenta - agent może nie znać skutków swoich decyzji. Gdyby znał te czynniki 
(karty przeciwników, mapę labiryntu), mógłby opracowywać na ich podstawie strategię 


maksymalizującą wypłatę (Q-uczenie). 
Definicja 2.5.0.6 Częściowo obserwowalny proces decyzyjny Markowa składa się z: 
e zbioru stanów S, akcji A i obserwacji O, 
e rozkładu stanów początkowych Qo(s) = P(so = s), s ES, 
e rozkładu prawdopodobieństwa następnego stanu - P(sę+1|St, at), St E S, at € A, 
e rozkładu prawdopodobieństwa wartości wynagrodzenia - P(r;|st, at), st E S, at € A, 


e rozkładu prawdopodobieństwa obserwacji P(o;|s.), 0; € O, at € A. 


Z definicji wynika, że nie tylko następny stan i wynagrodzenie są wartościami loso- 


wymi. Przy tym samym stanie środowiska, obserwacja poczyniona przez agenta nie musi 


Ponieważ bardziej doświadczeni gracze wygrywają częściej, poker w wielu krajach nie jest uważany za 


grę hazardowa, a strategiczną lub nawet sport. 
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być zdeterminowana. Istoty biologiczne, w tym ludzie, zmuszone są stale uwzględniać tą 
niepewność obserwacji związaną z omylnością zmysłów. Iluzje optyczne pokazują nam jak 
bardzo jest to proces automatyczny. Widząc rysunek, który można dwuznacznie interpre- 
tować (słynny przykład - zając czy kaczka), jesteśmy w stanie „przestawić” swój umysł, 
skupiając się na cechach zajęczych lub kaczych rysunku. Brakujące elementy - w końcu to 
tylko kilka kresek, które interpretujemy jako reprezentację zwierzęcia - są stale dopisywane 
przez mózg, który działa zgodnie z założeniem, że po prostu nie zostały zaobserwowane. 
Gdyby na obecność określonych obiektów uaktywniałyby się wyspecjalizowane, nieomylne 
zmysły, być może nie wykształcilibyśmy myślenia abstrakcyjnego, symbolicznego, pisma, 


matematyki. 


obserwacja 


Rysunek 2.3. Częściowo obserwowalny proces decyzyjny Markowa 


Terminologia przyjęta przy rozwiązywaniu częściowo obserwowalnych procesów decy- 
zyjnych Markowa obejmuje pojęcie stanu przekonań (belief state). Jest to taki zbiór stanów 
i hipotetyczny rozkład prawdopodobieństwa obserwacji, dla którego proces, wraz z wcze- 
śniej dokonanymi obserwacjami, ma własność Markowa. 

Rozmowa z chatterbotem opartym na języku AIML jest częściowo obserwowalnym pro- 
cesem decyzyjnym Markowa, o ile skrypt nie korzysta z funkcji zapamiętywania pewnych 
(pasujących do ustalonego wzorca) elementów rozmowy. Język AIML (Artificial Intelligence 
Markup Language) umożliwia przygotowywanie gotowych zdań, będących odpowiedzia- 
mi na zdania wpisywane przez rozmówcę. Boty w krótkiej] rozmowie mogą zdawać się 


przejawiać inteligencję. Skonfrontowane ze zdaniem, którego sensu nie mogą pojąć (patrz: 


12Zależnie od obszerności skryptu i sprytu rozmówcy. 
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skrypt nie przewiduje), zaskakują nas nagle zmieniając temat lub opowiadając dowcip, 
ale natychmiast zdradzają swoją starannie skrywaną tajemnicę, nie mogąc odpowiedzieć 
na pytanie „Jakie było moje poprzednie pytanie?”. Jednak ich sukces jako wirtualnych 
sprzedawców polega właśnie na tym, że to w naszej naturze leży dopisywanie zmiennych 
ukrytych. Widząc uśmiechniętą twarz i litery pojawiające się na ekranie, jesteśmy skłonni 
do interakcji, zadawania pytań. Nawet świadomość, że twarz pochodzi z bazy danych, a 
wszystkie odpowiedzi sprzedawcy są uprzednio przygotowane, nie przeszkadza nam w 
traktowaniu go jako partnera do rozmowy. Iluzję podtrzymuje to, że baza danych bota 
ukierunkowana jest na jeden temat. 

Proces decyzyjny nazywamy wektoryzowalnym (factored MDP) jeśli każdy stan s € S 
i akcja a € A (a w przypadku procesów częściowo obserwowalnych - również każda 
obserwacja) jest ustalonej długości wektorem zmiennych losowych. Gra w szachy daje 
się wektoryzować: stan szachownicy może mieć reprezentację wektora stanów pól lub 
wektora pozycji figur. Z naszych zmysłów, wektoryzować daje się na przykład wzrok lub 
słuch, ale nie węch. Doznania wzrokowe możemy opisywać niskopoziomowo, podając 
barwy, poziomy jasności i położenie, oprócz wyższego poziomu - interpretacji. Sygnał 
dźwiękowy, choć nie jesteśmy tego świadomi, jest w układzie słuchowym transformowany 
fourierowsko i analizowany. Nie potrafimy świadomie wyróżnić amplitud fal składowych, 
ale potrafimy podać ogólną charakterystykę transformaty - ton czysty, akord czy szum 
i określić kilka parametrów słyszanego dźwięku - głośność, wysokość. Węch opisujemy 
tylko przez określenie prawdopodobnego źródła zapachu na podstawie wcześniejszych 
doświadczeń, ewentualnie opisując siłę z jaką do nas dochodzi (kierunek już na podstawie 
dedukcji - wiatr, obserwacja wzrokowa). Między innymi dlatego dźwięk i obraz jesteśmy 
w stanie przesłać cyfrowym kanałem informacyjnym, a zapachu - nid] 

Rozwiązywanie wektoryzowalnych, częściowo obserwowalnych procesów decyzyjnych 
Markowa jest wyzwaniem trudnym i ciekawym. Problemy wymagające znalezienia strategii 
maksymalizującej wzmocnienie mimo fragmentaryczności informacji o stanie otoczenia 
można mnożyć - pojawiają się zawsze tam, gdzie następuje interakcja ze światem, gdzie 
metaforyczny agent zmuszony jest opuścić bezpieczny świat matematycznych rozważań i 
wykazać się w rzeczywistości! | 

Pewne próby rozwiązywania POMDP podejmowano za pomocą sieci neuronowych, 
których rozliczne modele nierzadko korzystają z wewnętrznej reprezentacji przestrzeni 


danych w jednostkach ukrytych, by wykryć zachodzące w nich zależności. 


3R6wniez to, że nasz gatunek nie używa węchu w takim stopniu jak słuchu czy wzroku, ale kto by nie 


chciał pobrać z Internetu aromatu egzotycznych przypraw czy perfum? 
MNaturalnie, nie każdy problem spotykany w rzeczywistości ma własność Markowa. 
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ROZDZIAŁ 3 


Maszyny Boltzmanna 


Maszyny Boltzmanna są stosunkowo nową i szybko rozwijającą się klasą sieci neurono- 
wych. Wprowadzone przez Geoffreya Hintona i Terry'ego Sejnowskiego w roku 1985 jako 
stochastyczna wersja sieci Hopfielda, były pierwszym modelem sieci neuronowych, w któ- 
rych uczeniu podlegały jednostki ukryte. Ceną za usprawnieniq!| była jednak ogromna 
kosztowność czasowa symulacji i uczenia. Do czasu, gdy w roku 2000 Hinton zapropono- 
wał niedokładną metodę uczenia, będącą przybliżeniem dokładnej metody, wymagającej 


próbkowania Monte-Carlo przestrzeni stanów. 


3.1. Sieci neuronowe 


Mózg ludzki to prawie półtorakilogramowe skupisko około stu miliardów komórek ner- 
wowycl?| Przez lata określany był przez popularyzatorów nauki jako „niezwykły zegar”, 
„naturalny kalkulator”, „superkomputer”, a ostatnio nawet jako „wyszukiwarka interneto- 
wa”, czyli zawsze jako najbardziej złożony instrument przetwarzający informację. Do dziś, 
mimo licznych odkryć neurofizjologicznych, i matematycznych modeli, nie został poznany 
do końca. Nadal nie mamy funkcjonalnego modelu zawartości naszych czaszek, ale z każ- 


dym krokiem przekonujemy się o nietrafności naszych wcześniejszych prób i porównań. 


synapsy 
dendryty jądro komórkowe 


akson 


Rysunek 3.1. Neuron biologiczny, schemat 


"Dla niecierpliwych - usprawnienia obejmują udowodnioną zbieżność do minimum globalnego z prawdo- 


podobieństwem 1, brak oscylacji. 
*Najbardziej śmiałe symulacje sztucznych sieci neuronowych ograniczone są do kilku tysięcy. 
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Sztuczne sieci neuronowe to niezwykle uproszczony matematyczny model naturalnych 
sieci, o funkcjonalności ukierunkowanej raczej na łatwość symulacji w postaci układów 
elektronicznych, czy programów komputerowych, niż na podobieństwo do rzeczywistych 
systemów biologicznych. W miarę rozwoju elektroniki i poszerzania się naszej wiedzy o 
naturalnych neuronach, sztuczne neurony zyskują na stopniu złożoności i możliwościach. 
Zdaje się, że obecnie największym problemem nie jest złożoność obliczeniowa potrzeb- 
na do choćby częściowej duplikacji funkcjonalności mózgu, a nasza niewiedza: w miarę 
wzrostu liczebności algorytmów i modeli, zdaje się wzrastać też liczba nierozwiązanych 
problemów. Jednocześnie badania behawioralne pokazują nam, że mózgi biologiczne z nie- 
zwykłą łatwością dokonują wyczynów, których nawet częściowo nie potrafimy zreplikować 
w maszynach. Obecnie, program komputerowy typu chatterbot uważa się za dobry, jeśli 
potrafi sprytnie udzielić odpowiedzi wymijającej na pytanie, którego treści nie zrozumia] 
Człowiek tymczasem, po krótkiej rozmowie z nowo poznaną osobą nie tylko jest w stanie 
zrozumieć każde zdanie, ale też na podstawie akcentu i doboru słów oszacować jej pocho- 
dzenie, wykształcenie, a nawet pewne cechy charakteru. To nie jest tylko kwestia większej 
bazy wiedzy o świecie, to niezwykła umiejętność obserwacji, uogólniania i filtrowania in- 
formacji płynącej z doznań zmysłowych pozwala nam funkcjonować w społeczeństwie i 
dynamicznie dopasowywać się do zmian w otoczeniu. 

Jednak, nawet w prostych modelach, zauważane są pojedyncze cechy charakterystyczne 
dla naturalnych sieci neuronowych - zdolność adaptacji do nowych danych, generalizacji, 
charakterystyczne zachowanie przy stopniowym usuwaniu neuronów i przy przepełnie- 
niu pojemności pamięciowej. Sztuczne sieci neuronowe nie są już akademicką zabawką, 
czy matematycznym kuriozum, ale znajdują zastosowanie w najróżniejszych dziedzinach, 


wymagających analizy danych, sterowania, przewidywania, czy przetwarzania sygnałów. 


3.1.1. Neuron McCullocha-Pittsa 


Sztuczne sieci neuronowe pojawiły się w świecie naukowym w czasach wczesnego rozwoju 
elektroniki, w roku 1943, gdy neurofizjolog Warren McCulloch i matematyk Walter Pitts 
opracowali matematyczny i elektryczny model naturalnego neuronu. 

Wyjście neuronu progowego McCullocha-Pittsa wyznacza się w następujący sposób: 


l; = Wi Si > 0 
disk (3.1) 


0; w.p.w. 


gdzie n € N to ilość wejść, s,, i € 1...n to wartości na wejściu (binarne, 0 lub 14), a 


w; € {—1,1} to wagi przypisane wejściom. 


ŚNajpierw musi potrafić oszacować, że poziom zrozumienia pytania jest poniżej pewnego poziomu. 
*Tudziez bipolarne: -1 i 1, bez większej różnicy. 
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wi 


Rysunek 3.2. Schemat neuronu progowego 


Taki prosty neuron jest w stanie klasyfikować podane na wejściu wzorce (wektory zero- 
jedynkowe za pomocą prostej reguły - jeśli ważona suma wejść nie przekracza ustalonego 
progu 0 - wzorzec należy do pierwszej kategorii (0). Jeśli osiąga lub przekracza 0 - do 
drugiej (1). 

Struktura neuronu McCullocha i Pittsa była odzwierciedleniem ówczesnej fascynacji 
logiką formalną. Interpretując wartość 1 jako logiczną prawdę, a 0 jako fałsz, nietrudno 
przekonać się, że neuron jest w stanie odtworzyć niektóre operatory logiczne, między 
innymi - koniunkcję, przy 0 = 2 (i obu wagach ustalonych na 1), alternatywę, przy 0 = 1 
(wi = w2 = 1), zaprzeczenie logiczne, przy wadze na jedynym wyjściu równej —1 i progu 
0 = 0. Niezdolność neuronu do otworzenia operatora alternatywy wyłącznej (albo, wyłączne 
lub, exclusive or, XOR) stała się głównym argumentem krytyki modelu i doprowadziła do 
spowolnienia pracy nad sztucznymi sieciami neuronowymi na długie lata. 

Problem XOR należy do szerokiej klasy problemów nie dających się separować liniowo: 
zagadnień, których nie da się rozwiązać przez podzielenie przestrzeni danych wejściowych 
hiperpłaszczyzną oddzielającą jedną kategorię od drugiej. Do takich zagadnień należy np. 
problem podzielności przez 3 (i dowolną inną liczbę oprócz potęg dwójki) liczb zadanych 
w systemie binarnynf | 

Rozwój wiedzy neurofizjologicznej doprowadził do kolejnych rewizji bądź co bądż - 
ograniczonego modelu. Reguła, sformułowana jeszcze w 1932 roku przez Donalda Hebba, 
będąca wnioskiem ze słynnych eksperymentów Pawłowa, otworzyła sieciom neuronowym 
nowe możliwości - zamiast ustalać wagi dla problemu, można uczyć neuron na podstawie 
dochodzących do niego sygnałów. Reguła Hebba mówi, że często używane synapsy są 
wzmacniane, a rzadko używane - osłabiane. Do reguły Hebba i uczenia hebbowskiego 
wrócimy później. 

Wprowadzenie funkcji przejścia (transfer function) pozwoliło usprawnić proces uczenia 
się sieci. Motywacja jest jasna. Zadaniem neuronu jest dopasowanie nachylenia hiperpłasz- 


czyzny w przestrzeni aktywacji wejść tak, by możliwie jak najlepiej oddzielała ona wejścia 


E Operator XOR to szczególny przypadek problemu podzielności przez 3, dla liczb dwucyfrowych. 
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jednej kategorii od drugiej. W przypadku, gdy wzorce są klasyfikowane zero-jedynkowo, 
jakość klasyfikacji można mierzyć jedynie ilością źle sklasyfikowanych wzorców. Gdy neu- 
ron daje pewną miarę odległości od ustalonej granicy, można dokładniej zmierzyć jakość 
klasyfikacji. Choć nie zmienia to zdolności klasyfikacyjnych neuronu, przyspiesza ucze- 
nie i pozwala na generalizację: można się spodziewać, że neuron z odpowiednią funkcją 
przejścia uczony na pewnym podzbiorze zbioru danych lepiej klasyfikuje resztę zbioru niż 


neuron progowy uczony na tym samym podzbiorze. FIMXE progowa 


Rysunek 3.3. Schemat neuronu o sigmoidalnej funkcji przejścia 


Wyjście neuronu formalnego wyposażonego w funkcję przejścia oblicza się następująco: 


8; = 209 WjSj + 0;) (3.2) 
j=1 


gdzie ¢ to ustalona funkcja przejścia, a 6; to wartość równowazaca (ang. bias), charaktery- 
styczna dla neuronu. W praktyce, wartości równoważące pomija się, a dodaje się do sieci 
dodatkowe wejście, stale równe 1. Wagi między tym ustalonym wejściem, a neuronami 
podlegają procesowi uczenia. 

Funkcje przejścia są najczęściej funkcje sigmoidalne: monotoniczne funkcje przyjmujące 
wartości 0 i 1 w —inf i +inf odpowiednio (lub —1 i I w modelu bipolarnym). Typową 


funkcją sigmoidalną stosowaną w sieciach neuronowych jest funkcja logistyczna: 


T 


e 
oraz jej bipolarny odpowiednik - tangens hiperboliczny: 
e” — e7 
tanh(x) = ———— A 
anh(r) = EG (3.4) 


Odkrycie algorytmu propagacji wstecznej pozwoliło konstruować sieci wielowarstwo- 


we, czyli takie, w których wejściem warstwy neuronów może być inna warstwa neuronów] 


Warstwy neuronów występują również w sieciach ontogenicznych, ale ten temat wybiega za daleko poza 


tematykę tej pracy. 
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Rysunek 3.4. Sigmoidalna funkcja używana często jako funkcja przejścia - tangens hiperboliczny. 


Propagację wsteczną można z powodzeniem stosować do sieci o dowolnej architekturze, 
nawet o ścieżkach rekurencyjnych, o ile ustali się kolejność uaktualniania stanów neuro- 
nów. Algorytm propagacji wstecznej wymaga podania poprawnych odpowiedzi na zbiorze 


treningowym. 
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Rysunek 3.5. Perceptron wielowarstwowy o wielowymiarowym wyjściu 


3.2. Sieci Hopfielda 


W roku 1982 amerykański uczony John Hopfield zaproponował rekurencyjny model sieci o 


symetrycznych wagach i synchronicznej aktualizacji, z możliwością stosowania jako pamięć 
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autoasocjacyjna - przy wykorzystaniu reguły Hebba, tym samym odnawiając po dziesięciu 
latach zainteresowanie sztucznymi sieciami neuronowymi. 

Podczas, gdy wcześniej rozważane sieci były sieciami jednokierunkowymi, model Hop- 
fielda jest przykładem sieci w pełni rekurencyjnej. Każdy neuron może być w jednym z 
dwóch stanów: —1 lub 1. Ponownie, model może być binarny lub bipolarny. Tym razem 


jednak, dla ustalenia uwagi, niech wszystkie neurony będą bipolarne. 


Rysunek 3.6. Schemat sieci Hopfielda 


Model zakłada połączenia między każdym neuronem, a każdym innym (brak połą- 
czeń zwrotnych): 
W = [wij] Wii = 0; (3.5) 


ij=L..n>? 
o wagach symetrycznych: 
Wj = Wj (3.6) 
Czasem stosuje się neuron równoważący (bias), o stanie stałym i równym 1. W dalszej 
części będę zakładał istnienie takiego neuronu w sieci. 
Aktywacje neuronów obliczane są synchroniczne lub asynchronicznie. W wersji syn- 


chronicznej najpierw obliczane są wszystkie tzw. pola zewnętrzne: 


n 
Aj = 2 Wj ly (3.7) 
j=l 
a nastepnie zmieniane sq ich stany: 
1; ai 2 0 
=F a, <0 
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Tu warto zauważyć, że obliczanie aktywacji w trybie synchronicznym równoważne jest 
mnożeniu wektora stanów przez macierz wag. 

W trybie asynchronicznym aktywacje i stany neuronów uaktualnia się w ustalonym 
porządku lub losowo. Istnieją również modele obejmujące zjawisko refrakcji czyli nie do- 
puszczające, by neuron był aktywowany przez jakiś czas po ostatniej aktywacji. Refrakcja 
jest umotywowana biologicznie. 


Dla danej konfiguracji stanów neuronów wyróżnia się energię konfiguracji: 
1 
tj 


Załóżmy, że zmieniony został stan neuronu x; na zgodny z polem wypadkowym: 2%, 


czyli z;a; < 0 oraz xa; > 0. Wówczas: 
VA 


E(x') — Elx) = => S jaj (a, — xi) = (xi — xai < 0 (3.10) 
j 


Ponieważ ilość możliwych stanów sieci jest skończona, a energia stale maleje, sieć Hop- 
fielda o dynamice asynchronicznej, zainicjowana w pewnym stanie, zatrzymuje (zapętla) 
się w stanie o lokalnie najniższej energii. 

Stan na którym zatrzyma się sieć nie musi być minimum globalnym. Sieci Hopfielda 


utykają w minimach lokalnych. 


3.3. Uczenie hebbowskie 


Wspomnianą wcześniej regułę Hebba (synapsy częściej używane wzmacniają się, rzadziej 
używane - osłabiają) można interpretować w terminach korelacji: 

Dig ~ corr (si, sj) (3.11) 
co oznacza, że zwiększać będziemy wagi tych połączeń, które łączą neurony o dodat- 
nio skorelowanych stanach (po czasie), a zmniejszać tych, które łączą neurony o ujemnej 
korelacji. Jeśli stany neuronów są odpowiedziami na bodźce z otoczenia (jak to bywa w 
przypadku biotów), uczenie hebbowskie wykształca skojarzenie między bodźcami, które 
często występują razem: widząc ogień oczekujemy uczucia ciepła, widząc ciastko, przewi- 
dujemy jego słodki smak. Wagi odpowiadające za kojarzenie ognia z uczuciem wilgoci lub 
chłodu, a ciastka z kwaśnym lub gorzkim smakiem są w uczeniu hebbowskim osłabiane - 
nagłe pojawienie się dwóch nie pasujących do siebie bodźców wywołuje zaskoczenie. 

Takie korelacyjne kojarzenie bodźców nazywa się autoasocjacją lub uzupełnianiem 
wzorca. Sieć Hopfielda uczona regułą Hebba funkcjonuje jako pamięć autoasocjacyjna - raz 


nauczona zestawu wzorców, po podaniu niepełnego lub zaszumionego wektora, odtworzy 
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wzorzec najbardziej podobny do danego. Różnica między niepełnym, a zaszumionym 
wzorcem jest w zasadzie formalna. O niepełnym mówimy, gdy pewien ustalony, ciągły 
fragment jest pozostawiony bez zmian, a reszta wzorca zastąpiona jest stałą wartością (—1 
lub 1), o zaszumionym - gdy losowo wybrane elementy wzorca zostały odwrócone. 

Jak znaleźć macierz wag umożliwiającą wykorzystanie sieci hopfieldowskiej jako pa- 
mięci asocjacyjnej? 

Dany mamy zbiór P wzorców: 

I" = {é;}# (3.12) 


gdzie i = 1,...,N, N - wymiar wzorców, a u indeksuje wzorce. Chcemy znaleźć funkcję 
energetyczną faworyzującą te wzorce jako minima energetyczne i na jej podstawie dobrać 
macierz wag. 
Zdefiniujmy M* (z) jako miarę zgodności stanu sieci x ze wzorcem I*: 
M*(a) = EE rg = 5 (2,4%) (3.13) 
N N 


gdzie (.,.) oznacza iloczyn skalarny. W przypadku bipolarnym mamy do czynienia ze 


znormalizowaną odległością Hamminga. 


Przyjmijmy: 
E(x) = -3 )N-(MTu(zx))? (3.14) 
H 
Wtedy: 
1 1 
E(x) = -3N SOS ee E z” (3.15) 
H 1) 


Stałą P można pominąć. Przekształcając i przyrównując prawą stronę powyższego 


równania do energii konfiguracji: 
1 1 1 
= my bib LiL 5 = =D WijTicj (3.16) 
ij H ij 
Uzyskujemy jawny przepis na macierz wag: 
OIEA (3.17) 
k=1 


W dodatku w petni zgodny z reguta Hebba. 

Należy tu zauważyć, że w proponowana funkcja energii jest symetryczna względem 
odwrotności wzorców - oprócz każdego zapamiętanego wzorca, atraktorem procesu przy- 
pominania będzie także jego negatyw. 

Ponadto zauważmy, że sieć zapamiętuje w wagach statystykę drugiego rzędu dla 
wzorców, czyli jedynie korelacje między parami elementów, przez co mogą pojawiać się 


wzorce pasożytnicze, stanowiące w krajobrazie energetycznym lokalne minima. Przy większej 
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ilości wzorców do zapamiętania ilość takich wzorców pasożytniczych gwałtownie wzrasta, 
a różnica energii między właściwym, a pokrewnym mu pasożytniczym wzorcem - maleje. 
Ogólna stabilność pamięci asocjacyjnej zależy od korelacji między parami wzorców do 
zapamiętania: silnie skorelowane wzorce będą mylone między sobą. 

Wprowadza się również ciągłą wersję sieci Hopfielda. Ciągła sieć Hopfielda ma iden- 
tyczną budowę co wersja dyskretna, różni się tylko metodą obliczania stanu neuronu - 


zamiast funkcji progowej, dysponuje funkcją sigmoidalną: 


dj = BA Wij ly (3.18) 
j=l 


gdzie b; to współczynnik regulujący nachylenie środka sigmoidy. 


3.4. Dyskretne maszyny Boltzmanna 


Maszyny Boltzmanna to stochastyczna wersja sieci Hopfielda zaproponowana przez Hin- 
tona i Sejnowskiego w 1985. Modyfikacja polega na tym, że energia nie maleje z każdym 
krokiem symulacji, a może wzrastać, z prawdopodobieństwem wykładniczo zależnym od 
tego wzrostu. 

W maszynie Boltzmanna aktywację (pole wypadkowe) oblicza się analogicznie do sieci 
Hopfielda: 


ay = 9 Wij ly (3.20) 
j=l 


Zmiana stanu jest bardziej złożonym procesem - prawdopodobieństwo zmiany stanu 


neuronu zależy od energii nowej konfiguracji. 


e losuj neuron do zmiany: zi 
e jeśli stan (spin) neuronu jest niezgodny z polem wypadkowym, zmień: z; := sgn(a;) 


e jeśli stan neuronu jest zgodny z polem wypadkowym, zmień na przeciwny z praw- 
dopodobieństwem P = e-Hla| = ¿A(E(2)=El0), z prawdopodobieństwem 1 — P nie 


zmieniaj. 


gdzie konfiguracja x’ różni sie od x stanem i-tego neuronu. 
Czynnik 8 nazywa się też czasem temperaturą odwrotną (2). Im 8 bliższa zeru, czyli 
wyższa temperatura, tym chaotyczniej zachowuje się sieć: Przy 8 — oo maszyna Boltzman- 


na zachowuje się jak zwykła sieć Hopfielda z deterministycznymi uaktualnieniami. 
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Symulacja maszyny Boltzmanna w trybie przywoływania wzorca polega na wielokrot- 
nym losowaniu neuronu do zmiany. Każda zmiana zwiększa lub zmniejsza energię, przy 
czym wartość oczekiwana zmiany energii jest w czasie przebiegu sieci najczęściej ujem- 
na - stany neuronów stopniowo dopasowują się do wag, następuje tak zwana relaksacja 
sieci. Ile takich zmian pojedynczych neuronów należy wykonać, aby sieć znalazła się w 
stanie stacjonarnym - nie jest jednoznacznie określone. Istnieją algorytmy gwarantujące | 
że sieć znajduje się w stanie stacjonarnym, ale ich złożoność obliczeniowa jest zbyt duża, 


by stosować je w rzeczywistej symulacji. 


Podstawową zaletą maszyn Boltzmanna jest więc to, że mogą opuszczać stany będące 
minimami jedynie lokalnymi. Ewolucja sieci Hopfielda jest wędrówką według gradientu 
po krajobrazie energetycznym - jak spływająca górska woda, która skupia się w jeziorach. 
Maszyna Boltzmanna ewoluuje jak niestrudzony turysta górski, który chce wejść na sam 


szczyt, więc raz na jakiś czas schodzi niżej, nie zadowalając się lokalnymi wzniesieniamf | 


Warto zauważyć, że w procesie minimalizacji energii bardzo niepożądanym zjawiskiem 
jest nagły skok do stanu o wyższej energii, gdy już było „dość dobrze”. Tak jak na początku 
wędrówki dopuszczalne jest chaotyczne zachowanie, które może pozwolić znaleźć odpo- 
wiedni obszar przestrzeni energetycznej (taki o dużym spadku, który sugeruje bliskość 
minimum globalnego), tak w okolicach globalnego minimum nie opłaca się już skaka- 
nie do wyższych terenów, bo opóźnia to tylko osiągnięcie owego minimum. Dla maszyn 
Boltzmanna stosuje się dwa popularne algorytmy regulacji temperatury - symulowane 


wyżarzanie (simulated annealing) i symulowane studzenie (simulated tempering). 


Symulowane wyżarzanie opiera się na założeniu, że z kolejnymi krokami symulacji sieć 
zbliża się do minimum energetycznego. Temperaturę (tudzież 3) uzależnia się od pewnej 
arbitralnie ustalonej funkcji malejącej (rosnącej) z kolejnymi krokami symulacji tak, by 


chaotyczne zachowanie sieci malało z czasem. 


W algorytmie typu simulated tempering?| oprócz prawdopodobieństwa zmiany sta- 
nu, wyróżnia się też prawdopodobieństwo zmiany temperatury: losuje się kandydata na 
nową temperaturę (odwrotną) /' i określa się jakość zmiany. Jakoś zmiany jest proporcjo- 
nalna do wielkości zmiany i prawdopodobieństwa wystąpienia aktualnego stanu w nowej 


temperaturze. To wyznacza prawdopodobieństwo zmiany temperatury na /'. 


7 Algorytm Proppa-Wilsona. 
STo poetyckie porównanie wymaga odwrócenia kierunku - szczyt odpowiada minimum energii. 
"Unikam tłumaczenia „studzenie”. 
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3.5. Uczenie maszyn Boltzmanna 


Cel uczenia maszyny Boltzmanna jest identyczny jak w przypadku autoasocjacyjnej sieci 


Hopfielda - mamy pewien zbiór danych, chcemy znaleźć takie wagi, dzięki którym sieć 


będzie pełniła funkcję pamięci autoasocjacyjnej. 


Niech q? oznacza rozkład empiryczny po zbiorze danych, a q% rozkład stacjonarny w 


maszynie Boltzmanna, zlaeżny jedynie od wag i 8. Naszym celem jest znalezienie takiego 


zestawu wag, który minimalizuje rozbieżność Kullbacka-Liebera tych dwóch rozkładów: 


q(x) 
H(q'|q") "2.80 al an z) 
z =A q («)log(q («)) — sumaq (x) log(q* (x) 


Mamy: 
OH (Pla) _ NE q( q* (2) 


Z 


Rozkład stacjonarny q% zależy wyłącznie od wag i temperatury: 


exp(—PE(x)) 
Z|] 


gdzie Z[6] = >>. exp(—GE(c)), c indeksuje całą przestrzeń. 


g(x) = 


Pochodna licznika: 


= —fexp(-BE(x))t;t; 


Pochodna mianownika: 


OZ) _ 


Owi,j 


— 2 ,Bezp(-BE(o))cicj 


Ze wzoru na pochodną ilorazu: 


q(x) _ ZI8](-Bexp(-BE(x))xia;) + exp(-BE(x))(7,, Bexp(-BE(c))cicz) _ 


Owi j Z[8]? 
__gezp-BE(G) gZev BEO) czp(-BE(2) _ 
= —B ZA ilj +0 z[8] Z[8] 
= —8q* (x)xi£j + B < nia; >q% q (2) 
Więc: 
OH(q'|q*) _ q(x) SS RE 00 = 
ðwij > a (Biz: q7 (v)t < zizj >q% :4™°(2))| = 
=>, priz; (x) — Y (zizi) P (2) = 


= 8- Ev (ziz; — (xi oe) = 


= 8 ( (zii) p (2:83) » —) 
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Co daje następującą regułę na zmianę wag: 

Awi = n (ies) — (2187) qa) (3.28) 
gdzie 7 to stała uczenia. 

W praktyce, korelacje po danych oblicza się jako średnią po wzorcach, obliczanie 
korelacji w stanie stacjonarnym przyspiesza się przez relaksację sieci na próbce Monte 
Carlo przestrzeni danych. 

Maszyny Boltzmanna mają jeszcze jedną innowacyjną cechę - dopuszczają uczenie jed- 
nostek ukrytych. Neuron uważamy za ukryty jeśli jego stan nie jest brany pod uwagę jako 
część zapamiętanego wzorca w procesie uczenia. Jednostki ukryte pozwalają zwiększyć 
moc obliczeniową sieci, uwalniając ją od statystyki pierwszego rzędu i zapamiętywania 
wzorców wyłącznie na podstawie korelacji między parami elementów. 

Maszynę z neuronami ukrytymi uczy się według tej samej reguły zmiany wag, z tym, 
że tam, gdzie chcemy policzyć korelacje dla jednostek ukrytych, stosuje się relaksację przy 


zamrożonych jednostkach widzialnych. 


3.5.1. Minimalizacja rozbieżności kontrastywnej 


Publikacja Hintona „Training Products of Experts by Minimizing Contrastive Divergence” [6] 
z roku 2000 przyniosła rewolucję w uczeniu maszyn Boltzmanna. Hinton zauważył, że 
czynnikiem obniżającym wydajność modeli składających się z połączenia wielu części, 
uczonych na tych samych danych (ekspertów) jest to, że ich „zakresy kompetencji” na- 
chodzą na siebie. W perceptronie, w którym każdy neuron odpowiada za dokładnie jedną 
kategorię nie ma tego problemu: neurony są predestynowane do swoich kategorii i zgodnie 
z tym założeniem uczone. W przypadku pamięci autoasocjacyjnej nie mamy jednak dobrze 
zdefiniowanych kategorii. Mówiąc metaforycznie - nie jesteśmy w stanie stwierdzić, że naj- 
optymalniejszą strategią zapamiętywania twarzy jest np. skupianie się na nosie i ustach. 
Trenując model oparty na kilku niezależnie uczonych ekspertach należy zadbać, aby nie 
wchodzili sobie w drogę - jeśli jeden skupia się na kształcie oczu, inni niech skupiają się na 
nosie, podbródku czy brwiach. Algorytm uczenia powinien zapewniać, aby w wykształca- 
jącej się wewnętrznej reprezentacji problemu, zakresy kompetencji ekspertów obejmowały 
niezależne wymiary. Stąd nazwa - zasada minimalizacji rozbieżności kontrastywnej (MCD 
rule). 

Przez słowo ekspert rozumieć będziemy model podejmujący decyzje na podstawie 
wektorów danych, przysłowiową czarną skrzynkę, dysponującą wektorem parametrów 6, 
zmiennych w procesie uczenia. Metoda minimalizacji kontrastywnej rozbieżności wymaga 
od eksperta jedynie, aby dawało się obliczyć prawdopodobieństwo warunkowe wektora 
danych przy zadanych parametrach: p(d|0). Eksperta będziemy utożsamiać z wektorem 


jego parametrów. 
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Prawdopodobieństwo danych d dla połączenia ekspertów 04, ..., 0, jest unormowanym 


iloczynem prawdopodobieństw dla poszczególnych ekspertów: 


„(db 
Pk.) = c fdd 


gdzie c indeksuje wszystkie wektory w przestrzeni danych. Dla przestrzeni ciągłej, sumę 


(3.29) 


zastępuje się całką po całej przestrzeni. 
Uczenie zespołu ekspertów 01, ...,0, zbioru danych d wiąże się wtedy z minimalizacją 
logarytmu powyższego prawdopodobieństwa dla każdego eksperta (0m) zgodnie z zespo- 


łem: 


O log p(dl61...0,) = Olog Pm (d|m) 


O log Dm(clOm 
> 30 > p(cl0,...8, ) eB Pm elm) (3.30) 


06m 


c 

Ostatni element powyższego równania jest najbardziej kosztowny obliczeniowo. 

W przypadku maszyn Boltzmanna, połączeniem niezależnych ekspertów jest tzw. ogra- 
niczona maszyna Boltzmanna czyli sieć o dynamice maszyny Boltzmanna, ale o niepełnym 
zbiorze synaps. W ograniczonej maszynie Boltzmanna (Restricted Boltzmann Machine, RBM) 
istnieją połączenia tylko między neuronami ukrytymi, a widzialnymi - nie ma połączeń 
wewnątrz warstwy ukrytej, ani wewnątrz widzialnej. Parametrami 0; są wagi między war- 
stwą widzialną, a i-tym neuronem warstwy ukrytej. 

Hinton proponuje minimalizować nie tyle rozbieżność Kullbacka-Liebera między roz- 
kładem po danych (q°), a rozkładem w stanie stacjonarnym (q), co jest niezwykle kosz- 
towne obliczeniowo, ale różnicę tej rozbieżności i rozbieżności pomiędzy q% a q!, gdzie 
q! oznacza rozkład po pewnym kroku symulacji!) Hinton argumentuje, że skoro q! jest 


bliższe stanu stabilnego niż q”, rozbieżność kontrastywna jest zawsze nieujemna: 
H(q' |4*) — H(a' [q*) > 0 (3.31) 


Przy czym zero osiągane jest dokładnie wtedy, gdy podczas kroku symulacji nie zaszła 
żadna zmiana w rozkładzie (czyli - sieć już była w stanie stacjonarnym). 

Z obliczeniowego punktu widzenia minimalizacja rozbieżności kontrastywnej zamiast 
rozbieżności Kullbacka-Liebera oznacza redukcję kosztownego obliczeniowo składnika z 


równania (3.30 


1 1| „oo 
- la) Hala) s (zem) l (En . dq! OH(q'|q*) 


Om 0m a 06m Og 
(3.32) 


Z testów przeprowadzonych przez Hintona[6] wynika, że wystarczy minimalizować 
różnicę pierwszych dwóch składników prawej strony powyższego równania. Trzeci skład- 


nik okazuje się być mały w proporcji do dwóch pierwszych i może być pominięty. 


Krok nie oznacza tu zmiany pojedynczego neuronu, ale ustalony arbitralnie czas symulacji. Im dłuższy, 


tym lepiej. 
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Daje to następującą regułę: 


ð log pm(d|0m) ) (Ein ) 
Adm X ( J a v e (3.33) 


W przypadku j-ego eksperta wewnątrz maszyny Boltzmanna, mamy zależność: 


Ologp;(d|w;) 


ðwi j = (wits) q — (Pits) goo() (3.34) 


gdzie w; to wagi między j-ym neuronem ukrytym a neuronami widzialnymi, (2x;x;) , to 
wartość oczekiwana korelacji przy d zamrożonym w neuronach ukrytych, a (3423) zoo to 
korelacje obliczone podczas symulacji polegającej na naprzemiennym symulowaniu war- 
stwy widzialnej przy niewidzialnej zamrozonej i niewidzialnej przy zamrożonej widzialnej. 

Dla ograniczonej maszyny Boltzmanna minimalizacja rozbieżności kontrastywnej wy- 


gląda i oblicza się niezwykle prosto: 
-= (H (glg) — H(g'|q*)) = (223) o — (2523) a (3.35) 


Jako jeden krok symulacji (aby znaleźć rozkład q'), Hinton proponuje następującą 


procedurę: 
1. wybierz wektor danych z d, 
2. ustal stany neuronów widocznych na ten wektor 
3. symuluj warstwę ukrytą, przy zamrożonej widocznej 
4. przy zamrożonej warstwie ukrytej symuluj widoczną 


W przypadku ograniczonej maszyny Boltzmanna, brak połączeń wewnątrz warstw 
sprawia, że w każdym kroku wszystkie połączenia są między jednostkami zamrożonymi, a 
symulowanymi. Kilkukrotne wylosowanie tego samego neuronu do zmiany może jedynie 
zwiększyć prawdopodobieństwo jego zmiany. Wystarczy więc bardzo krótka symulacja 


każdej z warstw - tak, by każdy neuron miał po kilka szans zmiany stanu. 


3.6. Ograniczone maszyny Boltzmanna na modelu ciągłym 


Modyfikacja maszyn Boltzmanna na model ciągły jest analogiczna do modyfikacji sieci 
Hopfielda: przy tej samej dynamice zastępuje się progową funkcję przejścia przez sigmo- 


idalną, z dodanym szumem gaussowskim: 


dj = aj Wj l +F 3 ‘ N (0, 1)), (3.36) 
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dzie: 
e 1 


= te exp(—b;x) en 


0; (2) 
gdzie b; jest, podobnie jak w przypadku sieci Hopfielda, czynnikiem regulujacym stromosé 
środka sigmoidy. 

Energia konfiguracji wyraża się podobnie do energii konfiguracji w modelu ciągłym 
Hopfielda: 


1 i fe _— 
E(2) = —5 wyne + 74 / ds (3.38) 
ij i 2 


gdzie p; to indywidualny parametr oporności neuronu. 
Ponieważ ograniczona maszyna Boltzmanna na modelu ciągłym jest iloczynem eksper- 


tów, z energii mamy regułę uczenia MCD: 


AWij = Mol (Lij) — (1i25) 1) (3.39) 


Abi = TE (4 0 yds) | (3.40) 
J 2i go 


dzie x’, to stan j-ego neuronu po jednokrokowej!!|symulacji. 
8 j 8 po] y J 


dla wag oraz: 


Chen i Murray w [2| proponują uprościć stosując przybliżenie: 


Tj 
f, a” "(s)ds x (z; + e) (e — z3) (3.41) 
Uczona regułą MCD z proponowanymi przybliżeniami ciągła, ograniczona maszyna 


Boltzmanna daje się łatwo implementować jako układ scalony. 


3.7. Ograniczone maszyny Boltzmanna a procesy decyzyjne 


Markowa 


Brian Sallans, przy współpracy z Hintonem, wydał serię publikacji rozważających zastoso- 
wanie maszyn Boltzmanna do rozwiązywania wektoryzowalnych procesów decyzyjnych 
Markowa ([17], [18]). 

Przypominając, proces decyzyjny Markowa to proces Markowa uzupełniony o pew- 
ną mniej lub bardziej zdeterminowaną wypłatę, zależną od stanu i akcji. Metaforycznego 
wykonawcę akcji nazywamy agentem, zmieniany wskutek akcji stan utożsamiamy ze środo- 
wiskiem, a mechanizm przydzielania wypłat określany jest jako krytyk. Ponadto, gdy agent 
posiada zdolność uczenia, wypłata nazywana jest wzmocnieniem. Rolą uczącego się agenta 


jest maksymalizacja wartości oczekiwanej zdyskontowanego wzmocnienia po wszystkich 


Ponieważ sieć jest ograniczona, stosuje się procedurę jak na str. [50] 
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możliwych przejściach procesu decyzyjnego, z uwzględnieniem prawdopodobieństwa ich 


wystąpienia (zmiana stanu w sposób losowy zależy od akcji i stanu poprzedniego): 


[e ©) 
E b fr; 


t=0 


‘ge s (3.42) 


W ogólności, przez przejście procesu decyzyjnego rozumie się dowolny ciąg par stan- 
akcja (s,a) € S x A, jednak dla agenta uczącego się, wyróżnia się strategię, r(s) lub 1(als), 
na podstawie której agent podejmuje decyzję o akcji w danym stanie. 


Dla strategii r wyznacza się jakość pary stan-akcja: 


O" (5,0) = Er ro +) yr 


t=1 


So = 5,00 = | (3.43) 


która sama w sobie wyznacza nową strategię, polegającą na wybieraniu tej akcji, która 


maksymalizuje Q dla danego stanu s € 6, zgodnie z rekurencyjnym równaniem: 
Tr (s) = argmaa,Q”(s,a) (3.44) 


Zaczynając od tabeli wzmocnień za pary stan-akcja (lub od losowych wartości), stabe- 
laryzowana lub aproksymowana funkcja Q zbiega do wyznaczającej optymalną strategię, 
gdy jest aktualizowana synchronicznie, algorytmem programowania dynamicznego lub 
asynchronicznie, algorytmem SARSA lub innym, klasy TD. 

W przypadku gdy akcji jest dużo, znajdowanie takiej akcji na podstawie aproksymo- 
wanej lub stabelaryzowanej Q-funkcji może być kosztowne obliczeniowo lub pamięciowo. 
Przy dużej ilości możliwych stanów tabelaryzacja funkcji Q może w ogóle okazać się nie- 
opłacalna - to tak jakby tabelaryzować wszystkie możliwe stany szachownicy po to, żeby 
znaleźć akcję zwiększającą prawdopodobieństwo wygranej. Tabelaryzacja jest nieopłacalna 
również z tego względu, że niektóre stany są bardziej prawdopodobne niż inne i agent 
mógłby popaść w pułapkę korzystania zaledwie z niewielkiej części ogromnej bazy da- 
nych wynagrodzeń, nie mogąc przy krótkiej eksploracji określić, które stany może z bazy 
usunąć. 

Sallans i Hinton w proponują wykorzystać ograniczone maszyny Boltzmanna do 
aproksymacji niedeterministycznej strategii r*(a|s) = P(als). 

Oznaczmy przez v warstwę widoczną, a przez h - ukrytą. Ponadto, niech v dzieli się 
na dwa rozłączne podzbiory - s i a, jak na rys. 


Energia konfiguracji (v, h) przedstawia się przy tych oznaczeniach następująco: 


E(v, h) == S wikvihk = 5 WijU¡UVj — 5 WimAkAm (3.45) 
i,k 


i<j k<m 


gdzie i oraz j indeksują jednostki widzialne, a k i m - ukryte. 
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warstwa ukryta 


Rysunek 3.7. Schemat ograniczonej maszyny Boltzmanna realizującej pary stan-akcja 


Energia determinuje rozkład prawdopodobieństwa konfiguracji (v,h) zgodnie z roz- 


kładem Boltzmanna: 
exp(—E(v, h)) 


Ds ezp(—E(o, h)) 


gdzie ô i h to wszystkie możliwe konfiguracje. 


P(v,h) = (3.46) 


Jakie jest więc prawdopodobieństwo wystąpienia konkretnego stanu jednostek widocz- 
nych v w stanie stacjonarnym? 


Przez F,(v) oznaczmy wolną energię wariacyjna: 
Faw) = Y a(h)E(v, h) + )  a(h)logą(h) (3.47) 
h h 


gdzie q to dowolny rozkład po konfiguracjach zmiennych ukrytych h. 
Minimalizacja F,(v) wymaga, aby rozkład q skupiał się na tych konfiguracjach zmien- 
nych ukrytych, dla których energia konfiguracji jest niska, a jednocześnie maksymalizował 


entropię. Rozkład Boltzmanna spełnia te wymogi. 


PORE PEREZ (3.48) 
Lin exp(—E(v, h)) 
Niech: 
F(v) = Fp(hiv)(V) (3.49) 
Wówczas pokazuje się, że: 
exp(—F(v)) = ) exp(—Elv, h)) (3.50) 
h 


Pio) = PCF) 


~ peep FO) a 
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gdzie © indeksuje wszystkie możliwe stany warstwy widzialnej. Mianownik ma tu znacze- 
nie normalizujące, tradycyjnie oznaczany jest przez Z. 


Tym samym mamy: 


P Ao 3.52 
(als) = == (3.52) 
Co oznacza, że jeśli tylko ujemna energia wolna par stan-akcja —F(v) = —F(s,a) jest 


proporcjonalna do dyskontowanego wzmocnienia, maszyna Boltzmanna w stanie równo- 
wagi termodynamicznej realizuje strategię maksymalizującą wzmocnienie. 
Jak znaleźć wagi tak, by minimalizacja energii (równoważna z minimalizacją energii 
wolnej) jednocześnie maksymalizowała zdyskontowane wzmocnienie? 
Sallans i Hinton wychodzą ze spostrzeżenia, że: 
OF (v) _ 
Owik 


vi (hk) plo) (3.53) 
Proponują modyfikację wag w następujący sposób: 
Ary x (re + YŚlseen ar41) — Ê(st, at) ) vi (he) (3.54) 


gdzie v = (s+, a), a Q(s, a) = —F(s, a). 


Dla ograniczonej maszyny Boltzmanna dany jest jawny wzór na F(s, a): 
F(s,a) = F(v) = =- Y Y w,¿vi (hy) + +2 lb ;) log (hj) + (1— (h;))log(1 — (hj)). (3.55) 
j i 


Choć nie ma dowodu na zbieżność strategii realizowanej przez tak uczoną ograniczoną 
maszynę Boltzmanna, symulacja pokazuje, że metoda działa dobrze. 

Hinton i Sallans badali swoją metodę na symulowanych częściowo obserwowalnych 
procesach decyzyjnych, w tym takich, które wymagały od agentów pracy zespołowej, a 
wzmocnienie było dawane po czasie - każdy z agentów działał mimo zerowego wzmoc- 


nienia, a cały zespół otrzymywał silne wzmocnienie gdy jeden z agentów osiągnął cel. 
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ROZDZIAŁ 4 


Projekt BrainLab 


BrainLab to rozwijalna biblioteka programistyczna w języku Java umożliwiająca konstru- 
owanie symulacji, w których mobilne bioty uczą się na podstawie eksploracji środowiska. 
Celem, jaki przyświecał mi przy projektowaniu biblioteki, było stworzenie systemu uczą- 
cego się w sposób podobny do organizmów żywych - nie w sensie zasady działania, ale 


metodologii zdobywania umiejętności. 


4.1. Motywacja 


Projekt BrainLab narodził się z rozważań na temat niezwykłej zdolności naturalnych sieci 
neuronowych do uczenia się. Każdy badany model systemu uczącego się lub sieci neurono- 
wych jest zawsze uproszczeniem, wyidealizowaniem problemu. Funkcjonuje tu prawo - im 
bardziej szczegółowy model, im bardziej zbliżony do modelowanego oryginału, tym mniej 
jesteśmy w stanie na jego temat powiedzieć, obliczyć, udowodnić. Aby model był nie tylko 
eksperymentalny, ale też poddawał się obróbce matematycznej, trzeba zdecydować się na 
kompromis i zrezygnować z pewnych cech, czy możliwości oryginału. Spora część publi- 
kacji dotyczących sztucznych sieci na neuronach impulsujących ogranicza się do jednego 
impulsu na neuron, upraszcza funkcję ekscytacji do zwykłego sumowania lub bazuje wy- 
łącznie na czasowym kodowaniu danych. Dlaczego? Ponieważ pełna implementacja sieci 
na neuronach impulsujących nie poddaje się łatwo żadnemu z aparatów matematycznych 
stosowanych w przypadku innych sieci - aktualizacja stanów (tu: wysyłanie impulsów) nie 
jest ani losowa, ani nie ma z góry określonej kolejności, czas refrakcji neuronu nie jest stały, 
a zależy od impulsów na wejściu i tak naprawdę nie możemy odgadnąć jaką postać będzie 
miał szereg impulsów na wyjściu, o ile nie uruchomimy modelu. 

Częstym uproszczeniem przy modelowaniu systemów uczących się jest to, że zawsze 
występuje „nauczyciel”, „krytyk” lub inne zewnętrzne źródło danych, sugestii lub nagród!] 
Z wyjątkiem może szczurów laboratoryjnych i studentów] w przyrodzie nie obserwuje 


się zbiorów danych do nauczenia, czy regularnego treningu w identycznych warunkach, a 


1W sieciach samoorganizujących się nie ma co prawda nauczyciela, ale wyniki uczenia wymagają interpre- 
tacji - sieć może podzielić dane na określoną ilość kategorii, ale dopiero „ręczna” analiza podziału pozwala 


te kategorie nazwać. Zwykle też, dane są znane, a od sieci oczekujemy tylko dobrej generalizacji. 
Dowcip laboratoryjny mówi, że student świetnie zastępuje szczura laboratoryjnego, w dodatku nie trzeba 


mu sprzątać klatki. 
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wolno żyjące szczury rozwiązują w swoim życiu nie mniej złożone problemy niż przejście 
przez labirynt w poszukiwaniu sera, czy odkrycie przycisku uwalniającego karm@>| Co 
sprawia, ze Deep Blue gra w szachy porównywalnie z mistrzem świata, ale bez drastycznej 
przeróbki oprogramowania (po przeróbce to nie jest już ten sam Deep Blue) przegra w 
o wiele prostszą grę, jaką są warcaby? Czym jest ta wewnętrzna potrzeba dopasowania 
się, odkrycia metody, zapamiętania nowych informacji? Jak doszło do tego, że nasze 
specjalizowane przez tysiące lat kończyny potrafimy w ciągu jednego życia nauczyć pisać, 
malować, przeprowadzać operację na otwartym sercu, czy prowadzić pojazd? Dlaczego 
ośmiornica, umieszczona w nowym dla siebie środowisku - szklanym labiryncie, stara się 
ignorować mylący ją zmysł wzroku i zaczyna orientować się w przestrzeni wyłącznie za 
pomocą dotyku? 

Bioty mają być właśnie uproszczonym modelem uczenia biologicznego, który nie otrzy- 
muje danych w gotowych paczkach i nie ogranicza kierunku uczenia. Projekt ma charakter 
czysto badawczy (proof of concept), nie ma na celu praktycznych zastosowań, czy rozwią- 
zywania w optymalny sposób trudnych problemów. Wszystko, czego mogą nauczyć się 
bioty, można zaimplementować prostym programem, z wyjątkiem samego uczenia się. 
Z założenia, biot ma działać jak wpuszczone w nieznane środowisko stworzenie, które 
odkrywa, co jest dla niego dobre. Problematyka inteligentnego agenta w nieznanym śro- 
dowisku rozwiązywana jest przez uczenie ze wzmocnieniem, które można równie dobrze 
implementować za pomocą programowania dynamicznego, co sieciami neuronowymi. Za- 
wsze jednak wymagany jest sygnał z zewnątrz - wózek balansujący odwrotne wahadło 
otrzymuje sygnał o kącie nachylenia wahadła i ciągłe uwagi o postępach. Agenci grający 
w piłkę nożną otrzymują informację o zdobytym przez jednego z graczy golu - nie widzą 
tego. Oczywiście, wymuszając samodzielność biotów w odkrywaniu świata, wymuszam 
też uproszczenie zmysłów biotów. W końcu można argumentować, że czujnik nachylenia 
wahadła jest zmysłem wózka i jest on samodzielnym bytem, próbującym wypełnić cel 
swojego życia, jakim jest utrzymywanie wahadła w pionie. Podobnie piłkarze, zajęci w 
innej części boiska, mogą nie widzieć momentu zdobycia gola, ale okrzyk kibiców jest dla 
nich wystarczającą informacją, że gol został zdobyty i zarazem wzmocnieniem, że dobrze 


spełnili swoją część zadania. Bioty mają symulować zachowania naturalne. 


Wiele eksperymentów wskazuje na to, że ogromne znaczenie dla uczenia się nowych 
umiejętności ma zapamiętywanie wzorców. Osoby, które często piszą na klawiaturze, ma- 
ją pewne słowa lub fragmenty słów „wprogramowane” w pamięć ruchową. Szczególnie 
wyraźne to jest u programistów, którzy powtarzają często te same słowa kluczowe. Pro- 


gramista często odruchowo wpisuje zapamiętane słowo, gdy słowo, które chciał wpisać 


*W nowo wydanej książce, „The Math Instinct” Keith Devlin pokazuje przykłady obliczeń matematycznych 
wykonywanych przez zwierzęta. 
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rozpoczyna się tym samym ciągiem liter, np. ,privatege” zamiast „privilege”, „voidence” 
zamiast „violence”. Wpisanie poprawnego słowa wymaga wysiłku umysłowego i trwa nie- 
co dłużej - raz ułożone na klawiaturze dłonie „nie chcą” się zatrzymać w połowie słowa, 


by dokończyć je inaczej niż tak, jak by chciały. 


Podobne zjawisko obserwuje się u szachistów, którzy zdają się inaczej reagować na 
konfiguracje figur i pionów na szachownicy, które są częścią gry, niż na takie, które zostały 
ułożone losowo - poproszeni o zapamiętanie i odtworzenie konfiguracji, mają o wiele lepsze 
wyniki w przypadku tych pierwszych. Dla porównania - laicy równie marnie odtwarzają 
konfiguracje naturalne dla gry, co losowe. Sugeruje to jakoby długoletnie doświadczenie 
w grze pozwoliło wyspecjalizować pamięć gracza w kierunku symbolicznych figur na 
biało-czarnej planszy. Skutek dla wydajności grania jest jasny - gracz, pamiętając układ z 
wcześniejszej gry, poświęca mniej czasu na analizę i jego wzrok szybciej pada na miejsce, 
które wcześniej uznał za strategicznie ważne lub natychmiast decyduje się wykonać ruch, 


który wcześniej doprowadził jego lub jego przeciwnika do zwycięstwa. 


W przypadku zwierząt, ciężko o eksperyment, który by wykazał istnienie podobne- 
go zjawiska. Można się jednak spodziewać, że występuje - zapamiętywanie wzorców w 
wewnętrznej reprezentacji jest procesem bardziej niskopoziomowym, prostszym niż gene- 
rowanie strategii. Wiemy, że psy, koty, czy delfiny są w stanie zapamiętać nawet do kilku- 
dziesięciu poleceń i opanować dość złożone sekwencje ruchów. Ciężko powiedzieć, czy u 


nich też występuje nieodparta chęć automatycznego dokończenia raz zaczętej sekwencji. 


Idea uczenia się strategii przez twarde zapamiętywanie dużej ilości wzorców wydaje 
się kontrintuicyjna - programujemy nasze komputery tak, aby program miał małe wyma- 
gania pamięciowe, aby algorytm uwzględniał możliwie jak największą ilość przypadków. 
Ciężko sobie wyobrazić program, który uczy się swojego zadania przez powtarzanie prób 
i zapamiętywanie tych udanych. Jednak, jak już wspomniałem, komputer nie jest dobrym 
modelem mózgu naturalnego. Ten sposób uczenia się pozwala szybko (w sensie ilości 
prób) osiągać dobre wyniki w prostych zadaniach: aby upolować rybę za pomocą kawałka 
naostrzonego kija, wystarczy uderzyć w chwili, gdy ryba jest w odpowiednim miejscu. 
Prosta sekwencja - unieść rękę z kijem, odczekać, uderzyć, wyrzucić rybę na brzeg. Pierw- 
sze próby na pewno są nieudane, jednak z każdą udaną próbą krystalizuje się technika, a 
ruchy stają się coraz szybsze, bardziej precyzyjne, wręcz automatyczne. Nasi przodkowie 
najprawdopodobniej nie rozważali skomplikowanej fizyki tego zadania - przesunięcia ob- 
razu ryby w wodzie, szybkości uderzenia, z uwzględnieniem zmiany gęstości ośrodka w 
chwili uderzenia w lustro wody. Myślenie strategiczno-algorytmiczne przy każdej próbie 
z osobna jest mniej wydajne niż automatyczne uruchamianie odpowiedniej sekwencji w 


momencie, gdy stan otoczenia jest wystarczająco podobny do wcześniej zapamiętanego. 
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Fascynujące jest, że byliśmy w stanie przenieść tę metodologię na tak abstrakcyjne 
problemy jak szachy czy pisanie na klawiaturze. 

Interakcja biota z otoczeniem w projekcie BrainLab zaprojektowana jest tak, by biot 
uczył się z doświadczenia. Tu pojawia się problem - we wszystkich wspomnianych wcze- 
śniej przypadkach zadanie jest dobrze sprecyzowane jeszcze przed wykształceniem jakiej- 
kolwiek strategii, przed pierwszą próbą. Nowicjusz wie, że gra w szachy skończy się ma- 
tem. Pisząc na klawiaturze planujemy napisać dane słowo. W każdym przypadku, mamy 
wewnętrzną reprezentację celu i choć szczątkową informację o metodzie przed podjęciem 
próby. Jakakolwiek specyfikacja zadania podsunięta uczącemu się automatowi jednocze- 
śnie sugeruje strategię: Dla poławiacza ryb specyfikacja ma postać instrukcji w znanym mu 
języku: ryba, ostry kij, woda, brzeg, do niego należy przetworzenie tej instrukcji na ruch. 
Jak reprezentować zadania dla prostego mózgu biota inaczej niż w postaci bezpośredniego 
przekazania pożądanej sekwencji ruchów? Jak oczekiwać od biota wypełnienia misji, jeśli 
nie przekazaliśmy mu co właściwie ma robić? 

Pamięć autoasocjacyjna jest dość dobrym modelem pamięci istot żywych. Jak jednak 
zapewnić wybiórczość, która pozwala uczyć się z własnego doświadczenia? W praktycz- 
nych zastosowaniach sieci neuronowych zbiór danych do zapamiętania lub sklasyfikowania 
prawie zawsze jest dany. Potrzebna jest swoisty mechanizm uwagi, a to sprowadza nas do 
punktu wyjścia - aby z natłoku wektorów wybrać te interesujące, musimy wiedzieć, które 
są interesujące. Aby wiedzieć, które są interesujące, musimy wiedzieć jak wykonać zadanie, 
a to właśnie chcemy odkryć. 

Zdaje się, że rolę takiego właśnie kontrolera uwagi spełnia u istot żywych złożony 
system emocji. Wiadomo, że wydarzenia związane z silnymi emocjami zapamiętujemy na 
dłużej i bardziej szczegółowo. Umiejętności, które przynoszą nam pozytywne doznania, 
przyswajamy sobie szybciej. Emocje i uczucia są w przypadku ludzi dość skomplikowa- 
ne, ale u prostych istot żywych powodowane są przez określony zestaw bodźców ozna- 
czających osiągnięcie chwilowego celu: znalezienie pożywienia, wody, czy zapewnienie 
przetrwania gatunku. W mózgu wyróżniono ośrodek nagrody i kary, a eksperymenty] 
potwierdziły jego znaczenie w procesie uczenia. 

W świetle tych przemyśleń, zdecydowałem się na rozwiązanie rodem ze wspomnianej 
tresury zwierząt, minus polecenia. Większość szczeniaków w pierwszym dniu tresury nie 
zastanawia się najprawdopodobniej nad znaczeniem dźwięków wydawanych przez istotę 
ludzką. W naturze psa leży jednak dążenie do otrzymania nagrody - smakołyku, pogłaska- 
nia, na dalszym etapie interakcji z człowiekiem nawet pochwały przyjaznym tonem głosu 


(emocje, układ nagrody i kary). Raz nagrodzone, zwierzę stara się odtworzyć warunki, 


śSzczur laboratoryjny z wszczepioną elektrodą stymulującą ośrodek nagrody do perfekcji opanowuje 
naciskanie przycisku przynoszącego mu przyjemność. 
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które przyniosły nagrodę i zaczyna kojarzyć bodziec (siadł pies!) z wykonaniem odpowied- 
niego ruchu lub sekwencji ruchów. Pierwszy sukces zazwyczaj jest przypadkowy, ale po 
pierwszym nagrodzeniu pies wykonuje polecenia coraz lepiej. Nie znaczy to bynajmniej, 
że wytresowany pies zna niuanse znaczeniowe pojęcia „siedzieć”. Po prostu kojarzy wej- 
ście - komendę z wyjściem - czynnością ruchową. Dokładnie na tym polega elementarna 
funkcjonalność biotów. 

Założenie o pierwszej, losowej próbie ograniczyło drastycznie pulę zadań, jakich mogą 
uczyć się bioty. Podobnie jak od szczeniaka nie możemy oczekiwać, by kiedykolwiek 


pr 


poprawnie wykonał komendę „graj w szachy!” czy choćby (co bardziej leży w granicach 
fizycznych psich umiejętności) - „wypij pół miski wody”, od biotów nie możemy oczekiwać 
bardziej złożonego zachowania niż takie, które może się wykształcić wskutek stopniowego 
poprawiania sekwencji, do której biot doszedł przypadkiem. 

Kolejne ograniczenie możliwości biotów jest skutkiem założenia o ich autonomiczno- 
ści. Biot nie otrzymuje informacji o swojej bezwzględnej pozycji na planszy, o odległości 
wobec sąsiednich biotów czy innych obiektów w otoczeniu. Biot dysponuje jedynie tym, 
co można zaobserwować z jego wirtualnego punktu widzenia. W przyrodzie, problem 
punktu widzenia kompensuje się dzięki złożonym mechanizmom optyki odwrotnej (two- 
rzenie wewnętrznej reprezentacji przestrzennej na podstawie dwóch płaskich, rozmytych 
obrazów) i po części - pamiętaniu wzorców (widząc coś, co przypomina nos, odtwarzamy 
trójwymiarowy kształt nosa). Od biotów nie można oczekiwać umiejętności tak złożonego 
przetwarzania informacji, choć pewna jego namiastka, w postaci wytwarzania wewnętrz- 
nej reprezentacji na podstawie dwuwymiarowej „optyki” jest konieczna do zadania, które 
bioty wykonują dość dobrze. Utrudnia to jednak zadania wymagające szczegółowej repre- 
zentacji otoczenia, jak wspomniany w wcześniej ruch stadny (flocking). Bioty w najbliższym 
czasie nie będą grały w piłkę. 

Mimo tak licznych ograniczeń, bioty uczą się, a dynamika ich ruchów jest dość reali- 


styczna. 


4.2. Gra 


Wspomniana we wcześniejszym rozdziale biologicznie inspirowana metoda uczenia może 
być przedstawiona w schematyczny sposób jako seria „gier”, czyli niezależnych podejść 
agenta do zadania, które mogą kończyć się sukcesem lub porażką. Podobnie jak tresowane 
zwierze jest w trakcie tresury poddawane powtarzającym się próbom, biot, eksplorując 
środowisko, raz na jakiś czas trafia na obiekt zainteresowania. Gdy zareaguje poprawnie i 
wykona zadanie, do jakiego został przeznaczony, otrzymuje impuls „emocjonalny”, który 


powoduje, że zapamiętuje całą sekwencję par stan-akcja od początku gry, czyli od momentu 


59 


Wzmgr: v1.01 :: lrybicki@mat.uni.torun.pl -- wersja 0.1 z 27/5/2005r. 


zauważenia obiektu. Jeśli zadanie nie zostanie wykonane, zapis sekwencji gry jest tracony 
i biot wraca do trybu eksploracji. 

Aby więc nadać biotowi zadanie, należy ustalić warunek początkowy gry oraz warunek 
wygranej i przegranej, w języku aktywacji zmysłów. Tym zajmuje się klasa Instinct, o 
której później. 

Impuls rozpoczynający grę powoduje, że wektory stan-akcja zaczynają być zbierane w 
tablicy modelującej pamięć krótkotrwałą. Pomyślne zakończenie gry powoduje utrwalenie 
zawartości tablicy w pamięci autoasocjacyjnej realizowanej przez maszynę Boltzmanna 
w mózgu biota. Dla pełnej biologiczności modelu, pamięć krótkotrwała powinna być 
siecią neuronową, ale brak dobrych rozwiązań umożliwiających utrwalenie lub odrzucenie 
zawartości neuronowej pamięci autoasocjacyjnej wymusił implementację tablicową. 

Z punktu widzenia ograniczonej maszyny Boltzmanna w mózgu biota, raz na jakiś 
czas otrzymuje ona serię wzorców względnie mało odległych w przestrzeni możliwych 
stanów i akcji - kolejne pary stan-akcja stanowią punkty na pewnej krzywej w tej prze- 
strzeni. Ze względu na skończoną pojemność sieci, nie można oczekiwać, by wzorce były 
dokładnie odtwarzane - szczególnie jeśli różnice między nimi są niewielkie. Zamiast tego, 
pamięć długotrwała biotów ma za zadanie utrwalić tą ścieżkę na krajobrazie energetycz- 
nym. Względna bliskość kolejnych wzorców sprawia, że ekstrapolacja pośrednich stanów 
jest łatwiejsza niż gdyby do pamięci krótkotrwałej trafiały tylko kluczowe momenty w 
wykonywaniu akcji. Praktyka pokazuje, że pojemność ograniczonej maszyny Boltzmanna 
nie pozwala na zapamiętywanie dużej ilości ścieżek i szybko następuje efekt zagubienia 
- z jednej strony sukces biota zależy od nauczenia się poprawnego reagowania w wie- 
lu możliwych sytuacjach, a z drugiej, różnorodność zapamiętanych sytuacji prowadzi do 
przepełnienia pamięci sieci i zachowania chaotycznego. 

Rozważania na temat tego, co powinno się dziać w sytuacji, gdy biot nie wykona 
zadania poprawnie, doprowadziły do spostrzeżenia, że wobec szerokiej teorii o uczeniu 
maszynowym i uczeniu sieci neuronowych, brakuje dobrego przepisu na od-uczanie, czyli 
osłabianie wzorca. 

Metoda uczenia maszyn Boltzmanna, ta nie-MCD, zawiera różnicę korelacji po danych 


(wzorcach) i korelacji po całej przestrzeni, w stanie stacjonarnym: 
Awij = 1: (2:25) yo — (Tity) goo) (4.1) 


Narzuca się kilka rozwiązań problemu karania biota. Pierwszym jest uczenie go ne- 
gatywu wzorca - w końcu biot, który ruszył w stronę niebezpieczeństwa, powinien się z 
tej porażki nauczyć ruszać w kierunku przeciwnym. Jednak maszyna Boltzmanna i tak 
zapamiętuje negatywy wzorców, a w gestii neuronu równoważącego jest pilnowanie, by 
negatywy nie były równoprawne z zapamiętanymi wzorcami. Uczenie negatywu miało- 


by więc sens tylko na poziomie wag między neuronem równoważącym, a pozostałymi. 
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Powstaje inny problem - oprócz akcji, wektory zawierają również stan. Nie interesuje nas 
uczenie biota, że gdy NIE widzi niebezpieczeństwa to powinien się wycofać. Należałoby 
więc odwrócić tylko część odpowiedzialną za akcję. To mogłoby odnieść pożądany skutek, 
ale rodzi kilka pytań. Czy rzeczywiście całą sekwencję ruchów należy odwrócić? Może 
tylko ostatnie ruchy były błędne? Co z efektorami antagonistycznymi? Należałoby więc nie 
tyle uczyć negatywu wzorców, co dla każdego efektora znajdować efektor antagonistycz- 
ny i odwracać aktywacje w parach. Io jest pewną komplikacją i narzuca wymogi wobec 
architektury biota - aby każdy efektor miał efektor antagonistyczny. Tymczasem może się 
okazać, że lepszą strategią unikania niebezpieczeństwa jest użycie szybkiego efektora ob- 


racającego niż słabego „biegu wstecznego”. 


Innym rozwiązaniem może być uczenie biota wzorców zerowych. Reguła uczenia 
sprowadza się wtedy tylko do drugiego składnika, czyli średniej korelacji po przestrzeni 
danych w stanie stacjonarnym. Te, gdyby traktować jednostki ukryte jako widzialne, są 
na podstawie reguły Hebba proporcjonalne do samych wag. Uczenie wzorców zerowych 
oznacza więc odejmowanie od wag czegoś proporcjonalnego do nich - w końcu staramy się 
douczyć sieć tak, by dawała jako odpowiedź sygnał możliwie bliski zeru. Osłabiając wagi, 
osłabiamy reaktywność biota - będzie wykonywał powolniejsze ruchy, co może narazić 
go na kolejne porażki. Jednocześnie, przy niezmienionej stałej uczenia sprawiamy, że 
kolejny zapamiętany wzorzec (seria wzorców) będzie miał większe znaczenie niż wcześniej 
zapamiętane wzorce. Czy uzasadnione jest aby biot, który właśnie popełnił błąd, łatwiej 
przyjmował następną lekcję? Kolejne podejście do zadania może być poprawne, ale mniej 


optymalne. 


Problemem przy karaniu biota jest to, że porażka nie daje informacji o postaci popraw- 
nego rozwiązania. Aby wiedzieć, że od niebezpieczeństwa trzeba uciekać, potrzebna jest 
wysokopoziomowa wewnętrzna reprezentacja problemu - niemalże wyobraźnia. Najszyb- 
sza droga ucieczki nie zawsze jest odwróceniem najszybszej drogi podejścia do obiektu, a 
prosta obserwacja przyrody pokazuje, że czasem optymalną strategią wcale nie jest uciecz- 
ka, a na przykład atak, unik lub ukrycie się. U istot żywych unikaniem porażki zajmuje 
się często wbudowany system odruchów - stroszenia kolców, chowania się do skorupy, 
czy zmiany barwy. Zwierzę może najwyżej nauczyć się nie aktywować funkcji obronnych 


- oswoić się. 


Wobec tych rozważań, zdecydowałem się na proste czyszczenie pamięci krótkotrwałej 


w razie porażki. 


61 


Wzmgr: v1.01 :: lrybicki@mat.uni.torun.pl -- wersja 0.1 z 27/5/2005r. 


4.3. Symulowane środowisko 


Symulacja w BrainLab składa się z prostokątnej planszy (klasa Ground) o topologii torusa 
i zbioru umieszczonych na niej obiektów: biotów, ścian i pożywienia. Wszystkie zamiesz- 
czone na planszy obiekty rozszerzają klasę Prop (z ang. rekwizyt), która przechowuje 
położenie obiektu. Bioty (klasa Agent) rozszerzają Prop, ale mają w symulacji szczególne 
względy. 

Każdy ruchomy obiekt (a więc przede wszystkim bioty) porusza się na zasadzie na- 
pędu, tarcia i bezwładności. Czas symulacji jest dyskretny, a model musi uwzględniać 
siły pochodzące z efektorów biotów. W tym celu zaprojektowałem prosty model fizyki w 
dwóch wymiarach. 

Obiekt ruchomy ma w każdym kroku przypisany wektor przesunięcia i skalarną war- 
tość oznaczającą kąt obrotu (o ile ma możliwość się obracać). 

Zderzenia w BrainLab są niesprężyste. Dla systemu wykrywania kolizji, okrągły obiekt 
jest lokalnym polem wektorów siły skierowanych od jego środka na zewnątrz. Im bliżej 
środka obiektu, tym silniejsze odpychanie. Nie ma zachowania momentu pędu - zderzenie 
dwóch biotów ma wpływ tylko na kierunek ich ruchu, nie na obrót. 

W każdym kroku symulacji, dla każdego obiektu rozszerzającego Prop (o ile został on 
umieszczony w symulacji) sprawdzane jest, czy nie koliduje on z innymi obiektami roz- 
szerzającymi tę klasę. W praktyce uwzględniane są jedynie zderzenia biotów ze ścianami, 
z pożywieniem (tu następuje zjedzenie, nie odbicie) i z innymi biotami. 


Nową symulację tworzy się przez rozszerzenie klasy Ground (teren): 


\label{ground} 
brainlab.Ground g = new brainlab.Ground (400,400) ; 
g.setBirthplace(15,15,150,150) ; 


Tu teren ma rozmiar 400 na 400 pikseli, a bioty będą sie pojawiały wewnątrz kwadra- 
towego obszaru w pobliżu lewego-górnego rogu. 


Następnie wypełnia się planszę nieruchomymi obiektami: 


Wall Wi= new Wall(false,1,1,398); 
Wall W2= new Wall(true,1,1,398); 
Wall W3= new Wall (true,1,399,398) ; 
Wall W4= new Wall(false,399,1,398); 
Wall W5= new Wall (true,0,100,200) ; 
Wall W6= new Wall (true,100,200,200) ; 
Wall W7= new Wall (true, 200,300,200) ; 

g.addProp (W1) ; 
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.addProp (W2) ; 

.addProp (W3) ; 

.addProp (W4) ; 

„addProp (W5) ; 

.addProp (W6) ; 

„addProp (W7) ; 

.addProp(new Food(200,200)) ; 
for(int i=0; i<20; i++){ 
g.addProp(new Food(10,10,380,380)); 


0a 0a 0a 0a 0a 0a 0Q 


Parametry konstruktora klasy Wall określają czy ściana ma być wschodnio-zachodnia, 
czy północno-południowa (parametr typu boolean), współrzędne północno-wschodniego 
końca i długość. Porcja pożywienia zainicjowana dwiema współrzędnymi pojawi się w 
miejscu wyznaczonym przez te współrzędne. Gdy podane są cztery współrzędne, porcja 


pojawi się wewnątrz prostokąta, w pobliżu ostatnio dodanej do planszy porcji pożywienia. 


Rysunek 4.1. Teren zawierający pożywienie i ściany. 


Zanim przejdziemy do dodania biotów, przyjrzyjmy się strukturze biota. 
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4.4. Anatomia biota 


Założenie o dostarczaniu biotowi tylko tych informacji o symulowanym świecie, jakie 
jest w stanie sam zdobyć, jest odwzorowane w anatomii biota. Wizualny „awatar” biota 
to kolorowe kółko z „czułkami”, których jedynym znaczeniem jest pokazywanie, gdzie 
jest przednia część biota - nie mają żadnego związku z rzeczywistymi sensorami czy 
motorami. Taka prosta forma odzwierciedla to, że zadaniem biotów jest uczyć się - model 
nie przewiduje rozwoju fizycznego jednostki, modularności ciała biota, czy efektorów 
zmieniających jego kształt (choć to ostatnie może być na dłuższą metę interesujące). Biot 
jest z założenia organizmem jednokomórkowym. 

W wizualnej reprezentacji znajdować się może zasięg sensorów środowiskowych, re- 
prezentowany jako przezroczyste okręgi. 

Klasa Anatomy zawiera metodę rysującą biota, ale przede wszystkim odpowiada za 
ilość, typy, parametry i układ sensorów i efektorów. 

Jeśli biot ma mieć anatomię, która nie była wcześniej zdefiniowana (anatomia klasy 
Anatomy nie zawiera żadnych sensorów ani efektorów), musimy rozszerzyć klasę Anatomy. 


Nazwijmy nową klasę Beetle i nadajmy jej metodę rysującą żukowaty kształ] 
// ... odpowiednie deklaracje 
public class Beetle extends Anatomy{ 


public void draw(Graphics2D graphic, int X, int Y, Color color, double rotation, double sc: 
graphic .setColor (color); 
graphic.fillOval( 
(int)Math.round((X-radius)*scale), 
(int)Math.round((Y-radius)*scale), 
(int)Math.round(2*radius*scale), 
(int)Math.round(2*radius*scale)); 
graphic.setColor(new Color(0,0,0)); 
graphic.drawOval ( 
(int)Math.round((X-radius)*scale), 
(int)Math.round((Y-radius)*scale), 
(int)Math.round(2*radius*scale), 
(int)Math.round(2*radius*scale)); 


graphic.drawLine( 


"Taki żukowaty kształt jest domyślny dla klasy Anatomy, więc fragment kodu ma tylko znaczenie informa- 


cyjne. 
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(int)Math.round(X+scale*radius*Math.sin(rotation-0.5)), 
(int)Math.round(Y-scale*radius*Math.cos(rotation-0.5)), 
(int)Math.round(X+scale*(radius+5)*Math.sin(rotation-0.5)), 
(int)Math.round(Y-scale*(radius+5)*Math.cos(rotation-0.5)) ); 
graphic.drawLine ( 

(int)Math.round(X+scale*radius*Math.sin(rotation+0.5)), 
(int)Math.round(Y-scale*radius*Math.cos(rotation+0.5)), 
(int)Math.round(X+scale*(radius+5)*Math.sin(rotation+0.5)), 


(int)Math.round(Y-scale*(radius+5)*Math.cos(rotation+0.5)) ); 
hiso GGd<M 


4.4.1. Sensory 


Sensory lub zmysły to abstrakcyjne obiekty, powiązane z neuronami wejściowymi(stanu) 
wewnętrznej sieci neuronowej biota. Sensorowi przypisana jest ilość neuronów, z którymi 
się kontaktuje i funkcja obliczająca jego aktualną aktywację. Najprostszym przykładem sen- 
sora jest taki, który wysyła do przypisanego sobie neuronu stałą wartość. Celem istnienia 
sensora o stałej, niezerowej wartości jest zmniejszanie prawdopodobieństwa wystąpienia 
negatywu wzorca na etapie przywoływania. 

Sensory kontekstowe lub opóźnione to takie, których aktywacja równa jest aktywacji 
wybranych neuronów z poprzedniego kroku. Można w ten sposób zwiększać wymiaro- 
wość wejścia (zwykle stan sprzed jednego kroku nie różni się znacznie od obecnego), jak 
też dawać biotom pewną ograniczoną pamięć krótkotrwałą, umożliwiającą naukę reakcji 
nie tylko na stan obecny, ale na zmiany stanu pomiędzy krokami. Biotom wyposażonym 
w taką duplikację zmysłów zdarzało się ponownie podchodzić do straconego z zasięgu 
celu. 

Wymienione wyżej rodzaje sensorów określam mianem sensorów wewnętrznych dla 
odróżnienia od klasy sensorów środowiskowych. 

Sensory środowiskowe przyjmują swój stan na podstawie stanu otoczenia. Sensor $ro- 
dowiskowy ma wyznaczony zasięg (pole widzenia) i rozkład czułości wewnątrz swojego 
zasięgu. W implementacji jest to koło o środku w pobliżu ciała biota, a siła reakcji na obiekt 


w zasięgu zależy liniowo od odległości obiektu od środka pola widzenia: 


r+p—d(obj) . 
act = TEP O EE (4.2) 
0 w.p.w. 


gdzie p to promień obiektu (np. innego biota), r to zasięg sensora, a d(...) to odległość 


środka obiektu od środka pola widzenia sensora. 
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Oprogramowanie przewiduje również obiekty o innym kształcie niż kolisty (np. po- 


dłużne ściany). Odległość w takim przypadku liczona jest odpowiednio: 


public double dist(double X, double Y){ 
if (isHorizontal()){ 
if ((G>getX 0) ) & (X<getX O +getLength() )) 
return Math.abs(Y-getY()); 
if (X<getX()) 
return Functions.distance(X,Y,getX() ,getY()); 
if (X>getX()+getLength() ) 
return Functions.distance(X,Y,getX()+getLength() ,getY()); 
}else{ 
if ((Y>getY())&&(Y<getY()+getLength())) 
return Math.abs(X-getX()); 
if (Y<getY()) 
return Functions.distance(X,Y,getX(),getY()); 
if (Y>getY()+getLength()) 
return Functions.distance(X,Y,getX() ,getY()+getLength()) ; 
} 


return -1; // dla spokoju sumienia 


Metoda distance klasy Functions realizuje odległość euklidesową na płaszczyźnie. 


Dodajmy do klasy Beetle zestaw sensorów: 


//... c.d. klasy Beetle 


public EnvironmentSensor getEatingSensor(){ 


return mouth; 


} 


public Beetle(){ 

leftEye = new EnvironmentSensor(1,15,0.5,14); 
rightEye = new EnvironmentSensor(1,15,-0.5,14); 
bigLeftEye = new EnvironmentSensor(1,20,0.6,20); 
bigRightEye = new EnvironmentSensor(1,20,-0.6,20); 
distance = new EnvironmentSensor(1,15,0,15); 
mouth = new EnvironmentSensor(2,5,0,5); 


addSensor (leftEye) ; 
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mouth distance 


bigLeftEye 


bigRightEye 


rightEye 


leftEye 


Rysunek 4.2. Rozkład zasięgu sensorów biota z przykładu. 


addSensor (rightEye) ; 
addSensor (bigLeftEye) ; 
addSensor (bigRightEye) ; 
addSensor (distance) ; 
addSensor (mouth) ; 


addSensor(new ConstantSensor(1.0)); 


bigLeftEye.canSenseFood (true); 
bigRightEye.canSenseFood (true); 
leftEye.canSenseFood (true) ; 
rightEye.canSenseFood (true) ; 
mouth.canSenseFood (true) ; 
distance.canSenseFood (true) ; 


// ... c.d.n. 


Parametry konstruktora sensorów środowiskowych to ilość neuronów połączonych z 
sensorem, promień zasięgu i współrzędne biegunowe położenia względem środka biota: 


kąt i promień. Ostatni dodany sensor to sensor stały. Sensor „paszczowy” (mouth) został 
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wyznaczony jako sensor jedzący - pożywienie będzie musiało się znaleźć w jego zasięgu, 
by mogło być zjedzone. 
W tym fragmencie kodu należy zakładać, że wszystkie sensory zostały wcześniej za- 


deklarowane. Aby dany sensor reagował na ściany lub inne bioty, wystarczy dodać: 


bigLeftEye.canSenseWalls (true); 
bigLeftEye.canSenseAgents (true) ; 


Sensor środowiskowy może reagować na wszystkie te klasy obiektów lub tylko na 
wybrane. W przypadku stworzenia nowej klasy obiektów, należy też stworzyć nowy typ 


sensora - rozszerzyć klasę EnvironmentSensor, aby reagowała na nowe obiekty. 


4.4.2. Efektory 


Biot porusza się dzięki efektorom. W implementacji, klasa efektora (klasa Motor) obejmuje 
każdy obiekt zdolny pobierać aktywację z przypisanego sobie neuronu. Głównym zada- 
niem efektorów jest umożliwianie biotom poruszania się, ale efektor nie musi powodować 
ruchu biota - może np. modyfikować parametr uczenia lub powodować efekt wizualny. 

Efektory ruchowe występują w dwóch postaciach - napędzające i obracające biota. [| 
Efektor napędzający ma przypisaną siłę, która determinuje odległość, o jaką przesunięty 
może zostać biot pod wpływem tego efektora. Analogicznie, efektor służący biotowi do 
obracania się ma przypisany kąt o jaki w jednym skoku obraca się biot. Rzeczywista siła 
(lub moment siły) wywołana przez aktywację efektora jest iloczynem siły efektora i stopnia 
aktywacji powiązanego z nim neuronu, o ile aktywacja neuronu przekroczyła charaktery- 
styczną dla każdego efektora wartość progową. Jeśli siła aktywacji neuronu nie przekracza 
wartości progowej, aktywacja efektora nie następuje. Chociaż neurony w modelu są bipo- 
larne, domyślną wartością progową jest zero i zakłada się, że wartość progowa poniżej 
zera jest niedopuszczalna - ujemna aktywacja neuronu powodowałaby ujemną aktywację 
efektora. Na wzór biologicznych mięśni każdy efektor ma odpowiadać za konkretny ruch. 
Ruch w przeciwnym kierunku może być realizowany przez antagonistyczny wobec niego 
efektor. 

Zestaw efektorów biota, podobnie jak zestaw sensorów, powinien być dopasowany do 
zadania, jakie biot ma wykonać. Biot, który musi poruszać się szybko, powinien mieć efek- 
tory umożliwiające dalekie skoki. Biot, którego zadanie wymaga precyzyjnego sterowania, 
powinien być wyposażony w serię efektorów o małej sile. System wartości progowych po- 
zwala projektować efektory o dużej sile, ale aktywowane tylko w szczególnych sytuacjach 
- gdy biot jest „pewien”, że nagły, daleki skok jest opłacalny - aktywuje efektor o wysokim 
progu aktywacji i wykonuje szybki ruch naprzód. 


We wcześniejszej fazie projektu jeden efektor mógł jednocześnie obracać i poruszać biotem. 
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left 


<< reverse forward A em warp os 


Rysunek 4.3. Efektory biota według fragmentu kodu, szkic. 


Dajmy biotowi dwa efektory poruszające go do przodu - jeden słabszy, drugi silniejszy, 


słaby „bieg wsteczny” oraz dwa antagonistyczne efektory do obrotu: 


//...c.d. Beetle 

forward = new Thrust(0.2,6); 
warp = new Thrust(0.7,10); 
reverse = new Thrust(0.0,-2); 
left = new Turn(0.0,-0.2); 
right = new Turn(0.0,0.2); 
addMotor (forward) ; 

addMotor (warp) ; 

addMotor (reverse) ; 

addMotor (left); 

addMotor (right); 

} 


} // koniec klasy Beetle. 


Parametry kreatora efektora to próg (minimalna aktywacja neuronu wymagana do 


aktywacji efektora) i siła, mierzona w pikselach lub w radianach odpowiednio. 


4.5. Instynkt 


Ponieważ BrainLab uwzględnia możliwość współistnienia biotów wykonujących różne za- 


dania w tej samej symulacji, zaistniała potrzeba zdecentralizowania implementacji kryty- 
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ka, czyniąc z niego indywidualny moduł każdego biota. Z, punktu widzenia uczenia ze 
wzmocnieniem, instynkt nie jest częścią agenta (tu - biota), tylko częścią środowiska. 

Instynkt to prosty system wartościowania działania biota, jedyny element jego architek- 
tury, który „wie” cokolwiek na temat zadania, jakie biot ma spełniać. Na wzór instynktu 
istoty żywej, który reaguje na głód, niebezpieczeństwo, ale też zadowolenie czy sytość, 
instynkt biota reguluje proces uczenia przez wysyłanie sygnałów o rozpoczęciu zadania i 
jego pozytywnym lub negatywnym zakończeniu do mózgu. 

Instynkt jest dla biota drugą, obok mózgu, jednostką kontrolującą jego zachowanie. W 
przeciwieństwie do mózgu, nie jest to jednostka neuronowa, nie podlega uczeniu i jest 
ustalana dla danego biota (klasy biotów) na początku jego życia i pozostaje niezmieniona. 
Aby spełnić zasadę braku podpowiedzi, instynkt z założenia otrzymuje częściową tylko 
informację ze zmysłów: otrzymuje sygnał, że jedzenie znalazło się w zasięgu zmysłu, ale nie 
którego (ta informacja dociera tylko do mózgu). Rola instynktu została niebezpośrednio 
omówiona na początku tego rozdziału - klasa Instinct jest symulacją uwagi i emocji, 
selektorem wzorców, które powinny znaleźć się w zbiorze uczącym. 

W implementacji, instynkt jest podstawowym elementem odróżniającym bioty różnych 
gatunków - określa ich zadanie. Biot przeznaczony do szukania porcji pożywienia, będzie 
otrzymywał od instynktu wzmocnienie w momencie zjedzenia porcji (onEat). 

Załóżmy, że nasz biot będzie szukał jedzenia. Klasa EaterInstinct rozszerza klasę 


Instinct: 


private class EaterInstinct extends Instinct{ 


public void onFindFood(){ 
getAgent () .getBrain() .startGame() ; 
} 


public void onEat(){ 
getAgent (O) .getBrain() .winGame() ; 
da 


public void onLoseFood(){ 
getAgent () .getBrain() .loseGame() ; 
} 

} 


Nasz biot nie ma jeszcze mózgu. 
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4.6. Mózg 


Środowisko BrainLab nie stawia ograniczeń na postać mózgu biota. Klasa Brain i klasy z 
nią powiązane zakładają jedynie, że mózg będzie przyjmował i zwracał sygnały w postaci 
wektorów liczb z przedziału [0,1]. Nie narzuca to wymagania, by sama wewnętrzna 
sieć neuronowa operowała na domenie ciągłej - sygnał może być przez obiekt klasy 
Brain przetwarzany na postać zero-jedynkową przez ustalenie progu i w takiej postaci 


przetwarzany. 


W bardzo wczesnej fazie projektu, mózg biotów były dyskretnymi maszynami Bolt- 
zmanna, bez jednostek ukrytych, uczonymi regułą Hebba. Wtedy właśnie narodził się 
pomysł pół-krokowej fizyki świata - aby wygładzić skokowy ruch biotów. Model ciągły był 
jednak potrzebny, by wprowadzić sensory o ciągłej aktywacji. Następnym krokiem było 
wykorzystanie reguły MCD do uczenia. 

Zanim mózgi biotów były ograniczonymi maszynami Boltzmanna, przeprowadziłem 
eksperyment używając do uczenia algorytmu będącego swoistą mieszanką uczenia heb- 
bowskiego i MCD. Synapsy wewnątrz warstwy widzialnej uczone były regułą Hebba, a 
synapsy między warstwą widzialną a ukrytą - uproszczonym uczeniem MCD: korelacje 
były zliczane ze stanu sieci po krótkiej relaksacji (nie podczas relaksacji) i nie podlegały 
uczeniu współczynniki pochyłości funkcji sigmoidalnych. W efekcie dawało się zauwa- 
żyć asymetryczne zachowanie biotów - częściej używany z pary sensorów lub efektorów 
bardzo szybko zaczynał dominować i biot wędrował w kółko, ignorując jedzenie. 

W finalnej wersji, mózg jest ograniczoną maszyną Boltzmanna na domenie ciągłej, 
uczoną za pomocą reguły minimalizacji zbieżności kontrastującej. W tej wersji nie pojawia 


się efekt krążenia. 


warstwa ukryta 


Rysunek 4.4. Schemat mózgu biota 
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Zadaniem mózgu jest dopasowanie akcji do stanu - autoasocjacja wektora, w którym 
część zawierająca opis zaobserwowanego stanu jest dana, a część zawierająca akcję jest 
niepełna. W każdym kroku animacji wagi sieci decydują o następnym ruchu biota na 
podstawie aktywacji sensorów. 

Sfinalizujmy klasę naszego biota, nadając mu wcześniej stworzony instynkt, anatomię 


i mózg oparty na ciągłej, ograniczonej maszynie Boltzmanna: 


// ... pomijam oczywiste deklaracje 
public class Eater extends Agent { 


public Eater(String newName) i 

super (newName) ; 

setInstinct(new EaterInstinct()); 

setAnatomy(new Beetle()); 

setBrain(new CRBMBrain(getAnatomy(), 15)); 

setEatingSensor (((EaterAnatomy)myAnatomy) .getEatingSensor ()) ; 
} 

} 


Konstruktor klasy CRBMBrain przyjmuje jako parametry obiekt klasy Anatomy (lub klasy 
potomnej) i rozmiar warstwy ukrytej. Anatomia jest potrzebna przy budowaniu mózgu - 
wyznacza rozmiar warstwy widzialnej. Każdy neuron wejściowy jest połączony z jakimś 


sensorem, każdy wyjściowy - z efektorem. 


4.7. Dynamika biota 


Bioty poruszane są przez program asynchronicznie, w kolejności, w jakiej były dodane do 
symulacji. Każdy biot wykonuje swój ruch, a następne, przy ustalaniu aktywacji zmysłów, 
obserwują jego nową pozycję. Dla obserwatora, nie jest to zauważalne - ruch biotów jest 
płynny (z wyjątkiem momentów uczenia się, gdy rozmiar sieci neuronowej jest duży). 


Każda klatka animacji biotów składa się z następujących etapów: 


1. Uaktualnianie stanu zmysłów 
Zmysły środowiskowe są uaktualniane na podstawie stanu otoczenia, zmysły we- 
wnętrzne obliczają swoją aktywację. 

2. Instynkt 
Mając do dyspozycji aktywację zmysłów, instynkt modyfikuje parametry mózgu, 
aktywuje lub deaktywuje tryb uczenia. 
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Rysunek 4.5. Scena z symulacji. 


3. Aktywność mózgu 
Aktywacje zmysłów stają się aktywacjami neuronów wejściowych. Następuje poje- 
dynczy cykl relaksacji i nowe aktywacje neuronów wyjściowych stają się aktywacjami 
efektorów. Na tym etapie nie jest jeszcze wykonywany ruch. 
4. Wykrywanie kolizji 
Do wektora siły dodawane są wektory wynikające z wykrytych kolizji między biotem, 
a innymi biotami, czy ścianami. Nadal nie jest wykonywany rzeczywisty ruch biota. 
5. Aktywacja efektorów 


Przesunięcie wynikające z aktywacji efektorów dodawane jest do wektora siły. 


6. Ruch i zamknięcie cyklu 


Biot przesuwa się o połowę wektora siły (tarcie) i wektor siły jest połowiony do 


wykorzystania w następnym kroku biota. 
W kodzie klasy Simulation ta kolejność odzwierciedla się następująco: 
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public void step(){ 
//Acquisition of sensory input 
myGround.feedSensors () ; 
//Basic instincts 
myGround.activateAgentInstincts() ; 
//Cerebral activity 
myGround.thinkAgents(); 
//Detecting collisions 
myGround.collideProps() ; 
myGround.collideAgents() ; 
//Effectors 
myGround.activateMotors() ; 
//Finishing the cycle 


myGround.moveAgents () ; 


4.8. Eksperyment 


Bioty zostały poddane testowi - na planszy umieszczony został biot i agent o identycz- 
nej anatomii, o identycznym instynkcie, ale z mózgiem zastąpionym generatorem liczb 
losowych z zakresu, w jakim mogłaby działać maszyna Boltzmanna. 


Dodajmy do naszej przykładowej symulacji trzy bioty uczące się i biota „głupiego”: 


Eater wi = new Eater("Eater blue "); 
wi.setColor(new Color(0,192,255)); 
g.addProp (wi); 


Eater w2 = new Eater("Eater orange"); 
w2.setColor(new Color(255,153,0)); 
g.addProp(w2) ; 


Eater w3 = new Eater("Eater green "); 
w3.setColor(new Color(0,255,192)); 
g.addProp(w3) ; 


Eater wan = new Eater("Wanderer wz 


wan.setBrain(new StupidBrain(wan.getAnatomy(), 0)); 
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wan.setColor(new Color(102,102,102)); 
g.addProp (wan); 


Simulation sim = new Simulation(g); 


Rysunek 4.6. Cztery bioty na wspólnym terenie, początek symulacji. 


Gdzie g to wcześniej (str. ??) stworzony obiekt klasy Ground. 
Tu warto zauważyć, że Wanderer to Eater, czyli biot jedzący, ale jego mózg jest klasy 
StupidBrain. 


Budowę symulacji kończy stworzenie okna zawierającego nową symulację: 
new SimulationFrame (sim) ; 


Wyniki biotów mierzone były przez proporcję „gier” wygranych do przegranych, jak też 
przez sumaryczną ilość gier wygranych - w tym przypadku porcji pożywienia zjedzonego 
przez danego biota. 

Ta miara efektywności biota w żadnym wypadku nie jest miarą doskonałą. Gdy biot 


zobaczy dwie porcje pożywienia i zdecyduje się na jedną, druga będzie policzona jako 
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Rysunek 4.7. Biot podchodzi do jedzenia... 


Rysunek 4.8. ...celuje... 


Rysunek 4.9. ...zjada porcję i uczy się na bazie Śsłatniego doświadczenia. 
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porażka. Za porażkę policzona zostanie również porcja, która znalazła się na krawędzi 
zasięgu zmysłów. Bioty mają tendencję do rozglądania się, więc porcja na krawędzi za- 
sięgu zmysłów może być policzona wielokrotnid”] Czasem daje się zaobserwować, Ze biot 
wykonał poprawny ruch w kierunku pożywienia, ale pod wpływem nagłego impulsu (sto- 
chastyczność sieci) nagle odskoczył lub cofnął się”] Na wynik liczbowy wydajności biota 
wpływa więc zasięg zmysłów, gęstość rozstawienia pożywienia, konfiguracja efektorów i 
ogólne parametry mózgu, dlatego skupię się na porównaniu do biota poruszającego się 
losowo. 

W symulacji, po efektach brzegowych na samym początku, daje się obserwować po- 
wolny wzrost wydajności biotów uczących się (do 35 procent przy parametrach na jakich 
testowałem) i w początkowej fazie wyraźne zróżnicowanie umiejętności poszczególnych 
biotów uczących się. Wydajność biota losowego w tej fazie powoli spada do typowego dla 
niego (przy tych parametrach symulacji) poziomu 15-20 procent. W miarę, gdy wydajność 
biotów uczących się wyrównuje się (około 50 pomyślnych „gier”), zaczyna spadać do 20- 
25 procent, co prawdopodobnie spowodowane jest przepełnieniem pamięciowym sieci. Na 
tym etapie daje się zauważyć dysproporcja w ilości pomyślnych prób w czasie między bio- 
tem losowym, a uczącymi się. Ilość porcji zjedzonych przez biota losowego jest zawsze w 
okolicach połowy ilości porcji zjedzonych przez bioty uczące się (średnio). Ta tendencja jest 


zachowana nawet w bardzo długich symulacjach. Wyniki po kilkuminutowej symulacji’} 


Eater green w/l: .23 eats: 169 
Eater orange w/l: .20 eats: 135 
Eater blue w/1: .20 eats: 127 
Wanderer w/l: .19 eats: 74 


Jak wyjaśnić fenomen, że mimo porównywalnej wydajności, bioty uczące się maja na 
koncie więcej sukcesów? 

We wcześniejszej fazie rozwoju projektu, w podobnej symulacji biot losowy uzyskiwał 
gorszy wynik w wydajności, ale zjadał więcej pożywienia. Było to spowodowane najpraw- 
dopodobniej mniejszą niż obecnie używana warstwą ukrytą, większą temperaturą w sieci 
i większym zagęszczeniem pożywienia. Biot losowy atakował pożywienie „na oślep”, a 
biot uczący się popełniał błędy w najprostszych nawet sytuacjach. Tu sytuacja odwraca się. 
Bioty uczące się poruszają się szybciej i dzięki skalibrowanym parametrom uczenia ma- 
ją bardziej precyzyjne ruchy. Daje się zaobserwować, że rozglądają się, gdy rzeczywiście 


są w pobliżu pożywienia i zawsze zjadają porcję, która znajduje się bezpośrednio przed 


"Jedna porcja pożywienia może więc przynieść wiele przegranych gier, ale tylko jedną wygraną. 
SZa liczenie tego za porażkę ciężko winić miarę efektywności - to jest porażka biota. 
?Losowej, nie wybranej jako reprezentacyjny przypadek 
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nimi. Bioty uczące się mają więcej sukcesów przy porównywalnej wydajności, ponieważ 
dokonują większej ilości prób. 

Zadanie polegające na omijaniu ścian (wszystkie zmysły ustawiamy na wykrywanie 
ścian, odpowiednio modyfikujemy instynkt, aby utrata ściany z pola widzenia była wygra- 
ną, a zderzenie - przegraną) kończy się fiaskiem - choć chwilami widać postępy, szybko 


wydajność biotów uczących się i losowego wyrównuje się. 
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ROZDZIAŁ 5 


Perspektywy rozwoju 


Projekt BrainLab oparty jest na dalekosiężnym planie uzupełnienia rozlicznych symulacji 
typu sztucznego życia o zdolność poszczególnych agentów do uczenia się w sposób, w jaki 
uczą się istoty żyjące. Mimo sukcesów w prostych zadaniach, projektu nie można uznać 
za ostateczne wypełnienie planu. Wręcz przeciwnie - możliwych dróg rozwoju projektu 
jest wiele, zarówno w kwestii architektury biota, jego mózgu, sensorów i efektorów, jak i 
w kwestii nowych zadań do nauczenia, miar skuteczności w wykonaniu zadań i nowych 
możliwości, jakie można dać biotom. 

Dalszy rozwój może wymagać modyfikacji restrykcyjnych reguł, aby możliwe było wy- 
pełnianie trudniejszych zadań, jednak wielką wagę przykładam do tego, by bioty pozostały 
bytami autonomicznymi. Podobnie jak boidy, których grupowe zachowanie wynikało z re- 
guł rządzących jednostkami, złożone zachowania kolonii biotów mają być zachowaniami 


wynikającymi z ich indywidualnej umiejętności uczenia się. 


5.1. Sieci oparte na neuronach impulsujących 


We 1952 roku Alan Lloyd Hodgkin i Andrew Fielding Huxley przeprowadzili serię eks- 
perymentów, których efektem było pięć publikacji tworzących precyzyjny opis elektro- 
chemiczny aksonu neuronu biologicznego. Obiektem ich badań był neuron kałamarnicy 
olbrzymiej, dostatecznie duży, by można było do niego podłączyć elektrody, a wynikiem - 
równania opisujące zależności między poziomem potasu, sodu, a opornością neuronu. Na 
podstawie serii karkołomnych pomiarów, byli w stanie stworzyć schemat układu elektrycz- 
nego realizującego funkcjonalność neuronu kałamarnicy. Hodgkin, Huxley i Australijczyk, 
Sir John Carew Eccles w 1963 odebrali za ten model nagrodę Nobla z dziedziny medycyny. 
Wszystkie stosowane modele sieci neuronowych mniej lub bardziej czerpią ich wnio- 
sków - od idei sumowania wartości na wejściu, poprzez stosowanie sigmoidalnych funkcji 
przejścia, po asynchroniczne uaktualnianie stanu. Obecnie pojawiają się liczne publikacje 
dotyczące matematycznego modelu opartego na równaniach Hodgkina i Huxleya. 
Sztuczne neurony impulsujące to złożony model, obejmujący funkcjonalnością inne 
modele sieci neuronowych i daleko wykraczający możliwościami poza wcześniej propono- 


wane sieci, co wzbudza nadzieję, że dobrze zbadany, pozwoli nam z łatwością konstruować 
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jednolite sieci, które będą jednocześnie odszumiały, klasteryzowały i klasyfikowały, uczone 
bez nadzoru!] 

Kolejność aktywacji w sieciach impulsujących wyznaczana jest przez same neurony, 
czas jest ciągły, dopuszcza się wiele synaps o różnych opóźnieniach między dwoma neu- 
ronami, a refrakcja nie ma określonego czasu trwania. 

Przez impuls rozumie się delte Diraca skupioną w określonej chwili t;, impuls jest 
identyfikowany z momentem w czasie, w którym został wysłany. 

Załóżmy, że i-ty neuron wysłał impuls do neuronu j-ego w chwili t;. W chwili t, neuron 
ay 

yi (t) = e(t — ti — d") (5.1) 
gdzie t to ciągły czas, t; to chwila nadejścia impulsu, d* to opóźnienie na k-tej synapsie, a 


e(t) to funkcja określająca wpływ impulsu w czasie: 


e(t) = =e T, (5.2) 


Rysunek 5.1. Funkcja e - wpływu impulsu na neuron w sieciach impulsujacych 


Z wykresu widać, że nadchodzące impulsy są przez neuron „zapominane” z 
czasem. 
Wynikowa aktywacja neuronu j zależna jest również od wag na synapsach: 
m 
zit) = Y Y wywi (2) + m(t — tj) (5.3) 
iEN; k=1 
gdzie N; to zbiór sąsiadów neuronu j, a m(t) to funkcja wycieku aktywacji, zależna od 
czasu ostatniego impulsu tegoż neuronu: +;. Funkcja y powinna być silnie ujemna dla 


wartości bliskich zeru i powoli rosnąć do zera - odpowiada za refrakcję. 


"To zdanie wyraża mieszankę nadziei i sarkazmu i jako takie powinno być odczytane. 
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Wobec braku wpływających impulsów, aktywacja neuronu zbiega do zera. Aby wzro- 
sła, neuron musi otrzymać impuls lub serię impulsów od synaptycznych sąsiadów. Gdy 
aktywacja x;(t) przekracza pewną arbitralnie ustaloną graniczną wartość, neuron wysyła 
impuls do wszystkich swoich następców. Przyjmuje się, że siła impulsów jest stała (regulo- 
wana jedynie przez wagi), a minimalna wartość aktywacji wymagana do nadania impulsu 
jest porównywalna z siłą impulsu. 

Aby neuron „wystrzelił”, musi albo otrzymać szybką serię impulsów, albo silny impuls 
od sąsiada, z którym łączy go synapsa o dużej wadze. Czas refrakcji regulowany jest 
przez nadchodzące impulsy - jeśli są one w stanie pokonać hamujące działanie funkcji n(t), 
neuron wystrzeli szybciej. Po dłuższym czasie, do pobudzenia neuronu może wystarczyć 
jeden nadchodzący impuls. 

W implementacji, ciągły czas zastępuje się kolejką priorytetową, do której dodawane 
są momenty nadawania i odbierania impulsów przez kolejne neurony. W ten sposób, 
o ile znamy czasy impulsów na wejściu sieci, całe dalsze zachowanie sieci jest w pełni 


zdeterminowane, ale niezwykle trudne do przewidzenia. 


Model obliczeń realizowany przez sztuczne sieci impulsujące odbiega od tego we 
wcześniejszych modelach. Ponieważ naturalnym językiem neuronów impulsujących są 


właśnie impulsy, potrzebne są nowe reprezentacje danych. Powszechnie stosuje się dwie. 


W reprezentacji cyfrowej, zero-jedynkowa informacja jest taktowana - co regularny 
odcinek czasy następuje impuls jeśli była jedynka lub nic nie następuje jeśli było zero. 
Parametr T w .2]reguluje położenie maksimum funkcji e(t), więc czas, po którym neuron 
najsilniej reaguje na impuls. Ta charakterystyczna opóźniona reakcja sprawia, że neurony 
synchronizują się we wspólny rytm. 

W analogowej, gęstościowej reprezentacji danych, impulsy następują tym częściej, im 
silniejszy był sygnał wejściowy, podobnie jak wczesne mikrofony membranowe, które 
dźwięk przekształcały w serię impulsów elektrycznych. Ta reprezentacja danych wydaje 
się być bardziej umotywowana biologicznie. Dla opartych o neurony impulsujące biotów, 
zmysł środowiskowy działałby jak licznik Geigera - im silniejsza aktywacja, tym częściej 
pojawiałyby się impulsy. 

W rzeczywistości, oprócz nowych metod reprezentowania danych wejściowych i, co 
trudniejsze, interpretowania wyjścia neuronów, dziedzina sztucznych sieci impulsujących 
czeka na nowe algorytmy uczenia, w pełni wykorzystujące możliwości tych neuronów. 
Obecnie stosuje się w symulacjach kilka niepełnych modeli, ograniczonych tak, by upodob- 
nić sieć impulsującą do innej. Prawdziwym wyzwaniem jest opracowanie metody uczenia 
modelu pełnego. 

W przypadku biotów, chciałoby się zastosować uczenie regułą Hebba, ale wobec tak 


skomplikowanych zależności czasowych zachodzących między neuronami, zarówno na 
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poziomie synaps, jak i opóźnionych aktywacji, nie sposób przyjąć wysłania przez dwa 
neurony impulsu w tym samym momencie za wystarczający powód do zwiększenia wagi 
między nimi. Przede wszystkim - wagi której z synaps łączących te dwa neurony? Wszyst- 


kie są wykorzystywane równie często, choć w różnych momentach czasu. 


5.2. Modularyzacja mózgu 


Sieci impulsujące występujące w naturze mają skłonność do wewnętrznej synchronizacji 
całych grup neuronów, a badania pokazują, że takie zsynchronizowane grupy specjalizują 
się w jednej dziedzinie, np. w analizie sygnałów z jednego zmysłu, czy sygnałów o 
określonym charakterze. 

Jakkolwiek ideałem byłoby, aby monolityczna sieć podłączona do sensorów i efekto- 
rów biota podzieliła się na wyspecjalizowane komórki „obsługujące” poszczególne funkcje 
biota, może istnieć konieczność odgórnego zaprojektowania architektury mózgu spełnia- 
jącej określone zadanie. Przy wspólnym sygnale o spełnieniu zadania, wszystkie części 
inicjowałyby algorytm uczenia dla swoich danych wejściowych i wyjściowych, które by 
specyfikowały funkcję tych części. Układ wykrywający jedzenie mógłby wtedy ciągnąć 
biota w stronę jedzenia, układ wykrywający niebezpieczeństwo włączałby efektor cofający, 
a względna siła ich aktywacji decydowałaby o aktywacji odpowiednich efektorów. 

Teoretycznie, taka sytuacja możliwa jest w maszynie Boltzmanna, która stanowi iloczyn 
ekspertów, jednak jej ograniczoność, choć drastycznie przyspiesza obliczenia, jednocześnie 
zmniejsza możliwości obliczeniowe - neurony ukryte są w zasadzie tylko perceptronami, 


niezdolnymi do dłuższych ścieżek wnioskowania. 


5.3. Algorytmy genetyczne 


Myśląc o biotach, staram się myśleć o modelu sztucznego życia, w którym jednostki 
doskonalą się same, a nie wskutek rekombinacji ich genów. Bioty mają być z założenia 
autonomiczne, dopasowywać się do nowych sytuacji i indywidualnie odkrywać swoje 
przeznaczenie. 

Praktyka pokazuje, że nie jest to tak łatwe jak mogłoby się zdawać. Wydajność biota 
zależy nie tylko od czasu uczenia, ale od stanu środowiska i parametrów samego biota. 
Nawet w tak prostym eksperymencie jak nauka jedzenia, wydajność biota ściśle zależy 
od konfiguracji sensorów i efektorów. Co więcej - inna konfiguracja jest optymalna gdy 
jedzenie jest gęsto rozłożone, inna gdy średnia odległość między porcjami jest większa niż 
zasięg zmysłów biota. W procesie uczenia, ustawienie zbyt niskiej temperatury znacznie 
spowalnia proces uczenia (patrz: maszyny Boltzmanna a sieci Hopfielda), ustawienie tem- 


peratury zbyt wysokiej przyspiesza ten proces, ale też czyni biota bardziej chaotycznym. 
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Ewentualny schemat wyżarzania lub tempering, zwiększa tylko ilość parametrów do kali- 
bracji. Proste uzależnienie temperatury od chwilowej wydajności nie poprawia wydajności. 
Do wymagających kalibracji parametrów dochodzi również rozmiar warstwy ukrytej i stała 
uczenia. 

Zastosowanie algorytmu genetycznego do rozwoju biotów rozwiązałoby ten problem. 
Każdy biot zaczynałby życie w stanie „dziecinnym”, w którym musiałby nauczyć się te- 
go, czego już się nauczyły starsze bioty. Jednak jego genotyp nosiłby informacje o jego 
anatomii, temperamencie, skłonności do przyjmowania nowej wiedzy. Miarą przystosowa- 
nia genotypu byłaby długość życia, ilość zjedzonych porcji pokarmu w ciągu życia lub na 
jednostkę czasu. 

Propozycja zastosowania algorytmów genetycznych do biotów wymaga szczegółowego 


planowania. 
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ROZDZIAŁ 6 


Zakończenie 


Pisząc tę pracę chciałem przekazać szerokie tło historyczne projektu, jednocześnie przed- 
stawiając wykorzystaną w projekcie teorię. Starałem się, by opisy poszczególnych gałęzi 
wiedzy zawierały nie tylko ścieżkę prowadzącą do elementów wykorzystanych w Brain- 
Lab, ale były uzupełnione o teoretyczne, futurystyczne, a nawet filozoficzne rozważania. 
Dziedzina sztucznego Życia, jak każda dziedzina interdyscyplinarna, wymaga szerokiego 
spojrzenia na problem i ciągłego pogłębiania wiedzy z dziedzin pokrewnych. 

Symulacja a-life, jaką po części jest BrainLab, zawsze musi być kompromisem między 
elementami czerpanymi z biologii, a możliwością implementacji w postaci programu kom- 
puterowego i nawet tak rozwinięty projekt jak Framsticks, który wchodzi właśnie w etap 
uwzględniania chemii symulowanego świata, pozostaje ograniczony przez pierwotne za- 
łożenia projektu - aby wszystko dało się zapisać w postaci kodu genetycznego. Framsticki 
doskonalą się przez genetykę, ale ich „inteligencja” sprowadza się do złożenia emiterów 
i filtrów sygnału analogowego, sterującego mięśniami - framsticki nie mają stanów we- 
wnętrznych i choć potrafią reagować na otoczenie za pomocą prostych zmysłów, nie są w 
stanie się uczyć. Podobnie bioty, których podstawowym zadaniem jest uczyć się, mogłyby 
działać lepiej i wykonywać szerszą gamę zadań, gdyby ich sieci neuronowe miały pewne 
wagi ustalone na bazie ewolucji lub część ich zachowań była realizowana przez algorytm. 

Założenie o braku podpowiedzi miało na celu sprawdzenie, czy możliwa jest imple- 
mentacja uczenia, w którym agent widzi środowisko tylko przez swoje zmysły i sam dla 
siebie jest krytykiem. Eksperyment uważam za udany - bioty uczące się znajdują poży- 
wienie lepiej i szybciej niż bioty poruszające się w sposób losowy. Choć zdarza im się 
zachowywać irracjonalnie i gubić poszczególne porcje, nawet krótka obserwacja pokazu- 
je, że dynamika ich ruchu jest bardziej złożona niż byłaby, gdyby rządził nimi algorytm: 
bioty wykazują indywidualne tendencje, niektóre lubią atakować pożywienie, inne uczą 
się wracać do porcji, którą dopiero minęły. Przypadkowy obserwator, nie wprowadzony 
w tematykę minimalizacji rozbieżności kontrastywnej w ograniczonych maszynach Bolt- 
zmanna celem rozwiązywania częściowo obserwowalnych, wektoryzowalnych procesów 
decyzyjnych Markowa, natychmiast personifikuje bioty, przypisując im więcej inteligencji, 
niż rzeczywiście posiadają. 

Znajomość zasad działania biotów ujmuje trochę tej magii i wprowadza uczucie nie- 
dosytu - w końcu one tylko zapamiętują korelacje między sensorami a efektorami, a ich 


zdolność rozumowania jest równie ograniczona, co ich wewnętrzne maszyny Boltzmanna 
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z dokładnie jednym neuronem ukrytym między każdym sensorem, a efektorem. Przypo- 
mina się krążący po Massachusetts Institute of Technology koarf!| opowiadający o dwóch 


legendach katedry sztucznej inteligencji: 


W czasach, gdy Sussmarl”] by! jeszcze studentem, Minskyf| podszedł do niego, gdy ten 
hakowaf'] coś przy PDP-é?] 

— Co pan robi? - spytał Minsky 

— Uczę sieć z losowymi połączeniami | grać w Kółko i Krzyżyk - odpowiedział Sussman. 

— Dlaczego ta sieć ma losowe połączenia? - spytał Minsky 

— Bo nie chcę, żeby miała jakieś sugestie, jak grać. - powiedział Sussman 

Minsky wtedy zamknął oczy. 

— Dlaczego zamyka pan oczy? - spytał Sussman swojego mistrza. 

— Bo chcę, żeby pokój był pusty. 


W tym momencie, Sussman został oświecony. 


Tak naprawdę w każdej sformalizowanej symulacji zawarte są wskazówki co do jej 
celu. Bioty byłyby losowe, gdyby nie instynkt, zaprogramowany na uruchamianie proce- 
su uczenia w odpowiedniej chwili. Podobnie, nie można wyobrazić sobie, by bioty same 
wynalazły algorytm uczenia, który utrwala wcześniej zaobserwowane wzorce. To samo 
można powiedzieć o boidach, które s, o grze Life, w której wszystkie skończone konfigu- 
racje można ponumerować liczbami naturalnymi i rozrysować między nimi graf, w pełni 
determinujący zachowanie nawet tak złożonych konfiguracji jak maszyna Turinga”] Za- 
chowania wynikające, które obserwujemy u prostych systemów zawsze maja wyjaśnienie, 
leżące w samej naturze tych systemów. 

To rozczarowujące stwierdzenie stawia nas przed wielkim pytaniem - jeśli w zachowa- 
niach sztucznych zwierząt nie ma nic niezwykłego, a tylko matematyka, to jak to jest z 
prawdziwymi zwierzętami? Czy ich zachowania też można wyjaśnić za pomocą dużych 


liczb naturalnych lub równań różniczkowych? A jak to jest z nami? 


Krótka przypowieść lub zagadka używana w Buddyzmie Zen celem pokazania błędów w rozumowaniu 
i oświecenia słuchacza. 

*Gerald Jay Sussman, profesor z MIT. 

3Marvin Minsky, legenda sztucznej inteligencji. 

*W żargonie MIT, hacker to honorowy tytuł. 

"Programmed Data Processor-6, model komputera firmy DEC. Sprzedano 23 sztuki, głównie uniwersyte- 
tom. 

Sieć o losowych połączeniach to wynalazek Minsky'ego. 

"To przy założeniu posiadania ogromnej kartki papieru i zapasu ołówków. 
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DODATEK A 


Program i prezentacja na CD 
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5.1. Funkcja e - wpływu impulsu na neuron w sieciach impulsujacych 
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